De huidige staat van big data: data boven alles

19 mei 2015, 09:30

Review van het boek ‘Dit is Big Data’

Big data hebben we nu al een poosje, dus laten we eens kijken naar de stand van zaken op dit moment. Steve Lohr, journalist van de New York Times, heeft met zijn boek ‘Dit is Big Data‘ een dwarsdoorsnede trachten te schrijven van de huidige staat van big data.

“Data boven Alles”

Die dwarsdoorsnede start met een mooie anekdote om uit te leggen wat big data ook alweer is: een data-analyst op Wall Street werkte dag in dag uit aan zijn computermodellen waarmee hij de beurs en andere relevante aspecten van de economie probeert te voorspellen. Door steeds betere berekeningen te maken, maakte de analyst de modellen steeds beter. De kwaliteit van de modellen was dus evenredig aan het analytische vermogen van de analyst. Maar toen was er op een dag een storing op Wall Street waardoor er geen gegevens meer binnenkwamen. Toen lag het werk van de data-analyst dus helemaal stil en daar zat hij dan met zijn hyperintelligente modellen.

Toen drong het dus door tot deze data-analyst dat gegevens belangrijker zijn dan modellen. En dat de kwaliteit van de modellen niet (in de eerste plaats) samenhangt met het analytische vermogen van de analyst maar met de kwaliteit en kwantiteit van de data. En toen ging hij een bigdatabedrijf oprichten (Cloudera, niet zo heel bekend nog). Dat dus is wat big data eigenlijk betekent: niet perse ‘veel gegevens’ maar meer ‘gegevens boven alles’, en dan gaat het ook nog speciaal over realtime gegevens. De term ‘dataïsme’ wordt hiervoor ook wel gebruikt.

Op advertenties klikken

De grote datakoningen van dit moment zijn nog steeds de usual suspects Google, Facebook en Amazon. Die bedrijven verzamelen zo ontzaglijk veel data. Steve Lohr schenkt echter niet veel aandacht aan dit soort big data: de big data van het internet en bezoekersprofielen en het klikken op advertenties. Dit is volgens hem hoe big data tot nu toe gewerkt heeft, maar vanaf nu zal big data zich uitbreiden van de virtuele wereld naar de fysieke wereld. Big data is het advertenties klikken ontgroeid.

Overigens, bijna alle cases die Lohr bespreekt, zijn op één of andere manier gerelateerd aan of gerealiseerd door IBM. Ik weet niet of het toeval is of niet, ik zeg ook niets over belangenverstrengeling want Lohr is een New York Times journalist, maar het is wel opvallend. Bovendien, om een echt goede dwarsdoorsnede van de huidige staat van big data te kunnen geven, is het belangrijk om niet op één bedrijf te focussen (en ook nog eens een bedrijf als IBM dat niet echt op de voorgrond staat wat big data betreft). Maar goed, het zijn wel interessante cases!

Lohr schrijft bijvoorbeeld over hoe big data gebruikt wordt in ziekenhuizen. Er worden tegenwoordig zo ontzettend veel waarden gemeten van de patiënt, dat big data hierbij zou kunnen helpen door zelfstandig de data te analyseren, correlaties te vinden en de betrokken arts daarvan op de hoogte te stellen. Op die manier is big data een soort virtuele assistent van de arts.

Een andere interessante case is die van de big data wijngaard. Door grondwaarden te meten, het weer, hoogteverschillen en tal van andere datapunten, wordt met big data een realtime analyse gemaakt van hoe de druivenranken erbij staan en hoeveel water en voedingsstoffen iedere individuele plant nodig heeft. Het geautomatiseerde systeem kan vervolgens ook nog handelen op basis van die realtime gegevens en de plantjes automatisch water geven.

Wijngaarden en lichaamsfuncties zijn allemaal natuurlijke verschijnselen, die, hoe complex ook, een voorspelbaar karakter hebben. De echte uitdaging zit in het voorspellen van menselijk gedrag met big data. Dat is wat er aan de hand is bij de case van de slimme thermostaat. Die thermostaat hoef je niet op een automatisch week- of weekendprogramma in te stellen, maar hij leert als het ware je levensritme kennen, en past zich daarop aan. Bovendien heeft het geleerd om te gaan met onverwachte wendingen: als iemand bijvoorbeeld een keer ziek is of laat opstaat, past de thermostaat zich daarop aan. En hier is de cirkel weer rond, want het voorspellen van irrationeel onvoorspelbaar menselijk gedrag is de corebusiness van Google en Facebook.

Valkuilen

De staat van big data is niet uitsluitend een jubelverhaal, er zijn ook een aantal valkuilen. Hierboven wordt er al op gezinspeeld: menselijk gedrag is chaotisch en onvoorspelbaar. Dit is nooit 100 procent in een model te vangen, ook niet als je superveel data hebt. Bij advertenties klikken is dat niet zo’n ramp, maar als je big data gaat toepassen op andere domeinen, zoals de geestelijke gezondheidszorg, wordt het problematischer.

Ook besteedt Lohr ruimte aan de verplichte tegenwerpingen van privacy. Ja, er worden veel gegevens van ons verzameld: de Bonuskaart, de OV-chipkaart, Google, Facebook, de GPS op je telefoon, etcetera. Maar, schrijft Lohr, toen Kodak voor het eerst de camera op de markt bracht, waren veel mensen ook bang voor de schending van hun privacy en nu vindt iedereen het prima.

Een veel interessantere valkuil is het blinde vertrouwen op correlaties in plaats van op causale verbanden. In een ander boek over big data dat ik op Marketingfacts heb besproken, wordt ‘correlaties’ zelfs als kerneigenschap van big data bestempeld en wordt causaliteit overboord gegooid. Het vertrouwen op correlaties is blind, omdat je dan het denken helemaal aan de computer aan de overlaat. Lohr laat ook tegenstanders van dit denken aan het woord, bijvoorbeeld de voormalige chef-econoom bij Morgan Stanley. Volgens hem is deze kritiekloze extreem datagerichte praktijk één van de oorzaken geweest dat niemand de financiële crisis van 2008 aan zag komen.

Dwarsdoorsnede

Als journalist is Steve Lohr bij uitstek geschikt om de huidige stand van zaken op het gebied van big data in al zijn aspecten op te nemen. Hoewel IBM erg prominent aanwezig is, is het hem toch gelukt een paar heel inspirerende en recente cases te bespreken. En door te wijzen op spanning tussen data enerzijds en modellen anderszijds, en correlaties enerzijds en causaliteit anderszijds, is hij in staat de lezer verder te laten nadenken over wat big data eigenlijk precies is en hoe het werkt.

Ruben Meintema
Developer bij Talmark

Creative Coder, ASP.Net developer, Innovator, Ludoloog, Schiermonnikoger

Categorie
Tags

Marketingfacts. Elke dag vers. Mis niks!