Kirjasuositus: Programming Collective Intelligence

[amazon 0596529325 thumbnail] Tämä on ehdottomasti yksi mielenkiintoisimmista koskaan lukemistani IT-alan kirjoista. Collective Intelligence viittaa tässä yhteydessä algoritmeihin, jotka pyörittävät nykyajan Internetin toimintoja, kuten automaattisia tuotesuosituksia, spämmifilttereitä, hakukoneita ja vastaavia asioita. Siis kaikkea sellaista, mitä käyttäjien luomasta suuresta tietomassasta voidaan automaattisesti seuloa irti.

Kirjan matematiikka on pidetty kohtuuden rajoissa. Kaikista algoritmeista on annettu Python-kieliset esimerkit, joten matematiikkaa ei tarvitse välttämättä edes ymmärtää. Sen pystyy kuitenkin omaksumaan lukiopohjalta. Esimerkit ovat muutenkin loistavia: ne hyödyntävät Internetissä olevia avoimia palveluita, kuten del.icio.us:ia, Facebookia ja Hot or Notia, ja suorittavat niistä saatavalla datalla kaikenlaista mielenkiintoista analysointia.

Itselleni ehkä parasta antia olivat tuotesuositusten taustalla olevat ihmisten mieltymysten samankaltaisuutta mittaavat algoritmit, joiden pohjana on yleensä euklidinen etäisyys tai Pearsonin korrelaatio. Oli mielenkiintoista huomata, että nämä muutamat yhteiset peruskaavat ovat monen eri algoritmin perustana. En ollut myöskään koskaan itse oivaltanut, että ihmisten tai tuotteiden samankaltaisuutta voisi mitata geometrisilla etäisyyksillä.

Toinen kiehtova juttu oli neuroverkkojen käyttäminen hakukoneen toiminnan optimoimiseen, kun analysoidaan miten tietyt hakusanat vastaavat tiettyjä linkkejä, ja mitä linkkejä käyttäjät oikeasti klikkaavat. Olin yllättynyt, miten yksinkertaista on rakentaa neuroverkko vaikka MySQL-tietokantaan muutamalla taululla.