AOL zet 439 Mb gebruikersdata online!

AOL zet 439 Mb gebruikersdata online!

Iemand nog interesse om 439 Mb gebruikersdata door te spitten? AOL heeft namelijk 20 miljoen zoekopdrachten, afkomstig van 650.000 gebruikers gedurende een periode van 3 maanden, online gezet voor onderzoeksdoelstellingen. De data bevat per zoekopdracht de datum/tijd, userid (geanonimiseerd), zoekterm(en) en per link waarop de gebruiker heeft doorgeklikt de link en de positie (ranking) van de betreffende link (met dank aan Rene).


Geplaatst in

Delen

0
0


Er zijn 8 reacties op dit artikel

  • Btw, als het goed is heb ik over een uurtje de data binnen ;-)

    geplaatst op
  • De reacties in de Engelstalige blogosfeer, zoals Techcrunch bijvoorbeeld, zijn erg negatief... Vooral de kans dat users achterhaald worden, lijkt erg aanwezig te zijn. Brrrr...

    geplaatst op
  • AOL ziet inmiddels in dat dit niet zo heel handig was, en heeft (de link naar) het bestand verwijderd:

    "This was a screw up, and we're angry and upset about it," "It was an innocent-enough attempt to reach out to the academic community with new research tools, but it was obviously not appropriately vetted, and if it had been, it would have been stopped in an instant."

    (bron: Yahoo)
    Helaas voor AOL is het bestand al via allerlei mirrors en torrents te achterhalen.

    geplaatst op
  • Iemand die het bestandje nog heeft kunnen downloaden?

    geplaatst op
  • Mirrors staan hier... Voorlopig althans.

    geplaatst op
  • Nog een paar Mb'tjes en dan heb ik de dataset binnen.

    Smetty, ik had al een link naar de mirror in bovenstaand bericht opgenomen. Verbaasd me overigens niets dat er een publieke discussie over is ontstaan. Een willekeurige quote op TechCrunch:

    (...) User 491577 searches for “florida cna pca lakeland tampa”, “emt school training florida”, “low calorie meals”, “infant seat”, and “fisher price roller blades”. Among user 39509’s hundreds of searches are: “ford 352″, “oklahoma disciplined pastors”, “oklahoma disciplined doctors”, “home loans”, and some other personally identifying and illegal stuff I’m going to leave out of here. Among user 545605’s searches are “shore hills park mays landing nj”, “frank william sindoni md”, “ceramic ashtrays”, “transfer money to china”, and “capital gains on sale of house”. Compared to some of the data, these examples are on the safe side. I’m leaving out the worst of it - searches for names of specific people, addresses, telephone numbers, illegal drugs, and more. There is no question that law enforcement, employers, or friends could figure out who some of these people are. (...)

    geplaatst op
  • Velen zullen de tekstbestanden waarschijnlijk niet kunnen openen, vanwege de grootte van 217MB (Memory problemen). Dus heb je een filesplitter nodig, hier een gratis tooltje

    geplaatst op
  • Ik heb even een eerste tekstbestand geopend en er staat inderdaad gevoelige informatie in. Zo zijn er bijvoorbeeld een flink aantal queries te zien van iemand die naar kinderporno zoekt. Dit verhaal gaat zeker een staartje krijgen.

    geplaatst op

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.