#TNW2013: Big data beyond the bull$#%!

#TNW2013: Big data beyond the bull$#%!

Big Data is als begrip 'over-exposed'. Althans, dat stelt Kenneth Cukier tijdens The Next Web 2013. Cukier is data editor bij The Economist and co-auteur van het boek Big Data (]http://big-data-book.com]. We zitten nu op het punt in de hypecycle dat een aantal mensen het onzin vindt en dat zal over een paar maanden alleen maar zijn toegenomen, is zijn verwachting. Maar er zit wel degelijk veel waarde in data, we moeten alleen even wat verder kijken. Zijn presentatie heet niet voor niets: "Big Data - beyond the bull$#%!".

Update 21 mei 2013, 20:00 uur: video van de presentatie toegevoegd.

Er is geen definitie van big data voorhanden, en dat is maar goed ook, vindt Cukier: "To define it is to restrain it." Maar big data is eigenlijk helemaal niet zo nieuw. In 1963 verscheen al het boek Little science, big science van Derek J de Solla Price en in 1991 luidde de ondertitel van het boek Infopreneurs al: 'Turning Data into Dollars'.

De huiver voor big data is dan wel begrijpelijk, maar het gaat voorbij aan het feit dat we tegenwoordig kunnen leren van data zoals nooit tevoren. "The change in the size of data leads to a change in its state", aldus Cukier. De groei in de kwantiteit leidt ook tot een groei van de kwaliteit, meer is beter.

Dammen

Cukier geeft het voorbeeld van Arthur Samuel, een computerwetenschapper die gek was op dammen. Hij ontwikkelde een computerprogramma dat tegen hem kon dammen. Het programma analyseerde de plaatsing van de stenen op het bord en zocht naar de mogelijkheden om dichter naar winst te komen. Toen het programma klaar was, liet Samuel het tegen zichzelf spelen, zodat het meer spellen kon spelen en steeds beter worden. En sure enough, niet lang daarna won het programma van Samuel. Het grote aantal spellen dat het programma had gespeeld, zorgde voor betere prestaties. En dit soort machine learning is ook het onderliggende principe onder veel van de zaken die we nu in ons dagelijks leven voor lief nemen, zoals Google Translate. 

Credits afbeelding: IBM

More, messy, correlations

Big data kent 3 kenmerken: more, messy en correlations.

  • More: bij big data heb je niet meer te maken met samples, met steekproeven, maar je kunt metingen doorvoeren op de gehele populatie.
  • Messy: we gaan steeds meer genoegen nemen met en vertrouwen op niet-gestructureerde, unclean data.
  • Correlations: de zoektocht naar causaliteit is niet meer nodig, we hebben genoeg aan correlatie.

Het probleem met causaliteit, vertelt Cukier, "is that many times we think we have it, we don't." Maar causaliteit, de why, is niet per se nodig, vaak is de what van de correlatie voldoende. Neem het voorbeeld van babies die worden gemonitord. Door vitale signalen continu te monitoren - Cukier noemt een voorbeeld van 16 realtime datastreams die 1.000 datapoints per seconde opleveren - kunnen in een vroegtijdig stadium ziektes worden herkend.

Correlatie bespaart levens

Het voordeel is dat er snel kan worden ingegrepen; dat is beter voor de overlevingskansen van de babies en bespaart duurder medisch ingrijpen op een later moment. Bovendien leerde het de medici tegenstrijdige signalen niet voor lief te nemen: een van de beste voorspellers voor het oplopen van een infectie bleek namelijk dat een baby stabiliseerde. Normaal gesproken zou dat reden zijn voor de dokter om naar huis te gaan, maar uit de data bleek juist dat nauwkeuriger monitoring nodig was. En nee, het is nog niet bekend hoe het exact komt, de causaliteit is onbekend, maar het inzicht in de correlatie bespaart levens.

Cukier gaat door met een aantal voorbeelden waaruit blijkt dat big data 'real' is. Zaken die tot voor kort informational waren, worden nu 'gedataficeerd'. En dat levert de mogelijkheid tot processing, storage, analysis en het vinden van waarde. Zoals Farecast (overgenomen door Bing Travel) doet. Het achterhaalt continu de prijzen van vliegtickets en kan op basis van de prijsontwikkelingen in het verleden voorspellen of de prijs van het ticket dat je wilt kopen zal gaan dalen of stijgen. Met de toename van de data werden de voorspellingen nauwkeuriger en beter.

Minority Report

Ja, ook in deze presentatie over big data kwam de film Minority Report voorbij. Maar Cukier gebruikt de film om een moreel issue te schetsen. Want waar Tom Cruise mensen aanhoudt vóórdat ze een misdaag begaan om ze vervolgens in de gevangenis op te sluiten, vindt Cukier dat dat niet onze toekomst moet zijn. Sowieso zou het slimmer zijn om mensen te overtuigen de misdaag niet te begaan, bijv. door het aanbieden (of verplichten) van therapie i.p.v. het opleggen van straf.

Maar zelfs die interventie zou leiden tot stigma. En belangrijker: het zou een inbreuk zijn op een fundamenteel menselijk recht. Nee, niet het recht op free speech, want zelfs in Socrates' Apologie is daarvan geen spraken. Nee, het meest fundamentele recht is volgens Cukier free will: het kan niet zo zijn dat je gestraft wordt voor een misdaad die je (nog) niet hebt begaan.

Dictatorship of data

Want de waarde van data moet ons niet verblinden, we moeten waken voor de dictatorship of data. Een te groot vertrouwen in de waarde van data kan funest zijn, zoals in het geval van de Vietnam-oorlog. De VS ging die oorlog aan op basis van één datapoint, nl. de body count, terwijl de situatie vele malen complexer was.

Big data gaat ons helpen de wereld beter te begrijpen, onze gezondheid te verbeteren en in de opvoeding van onze kinderen. Maar wij moeten als mensen de regie behouden en onze verbeelding blijven gebruiken. Zoals Cukier zegt: "Data is only the shadow of reality, always imperfect. We humans need to stay its master.

Video

De presentatie van Kenneth Cukier is hieronder integraal terug te zien. Aanrader!

Credits afbeelding: Johan Ong


Delen

0
0


Er zijn 0 reacties op dit artikel

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.