De Big Data (R)evolutie
Is Big Data de grootste informatierevolutie sinds de uitvinding van de boekdrukkunst?
De hoeveelheid gegevens die tot onze beschikking staat is de laatste jaren explosief gegroeid, door toedoen van data-giganten als Google en Amazon, maar ook door kleine innovatieve partijen die zich toespitsen op het verzamelen en analyseren van Big Data. Zal data de grondstof zijn van de economie van de toekomst, en onze manier van werken en leven voorgoed veranderen? De schrijvers van het boek “De Big Data Revolutie” denken van wel. Er valt genoeg af te dingen af op deze lofzang, maar als het stof van de hype is neergedwarreld, zal blijken dat Big Data niet meer weg te denken is.
Wat is Big Data?
Volgens het boek “De Big Data Revolutie. Hoe de data-explosie al onze vragen gaat beantwoorden” is de hoeveelheid data zo enorm, dat we kunnen spreken over een ander soort data. Gegevens zijn pas Big Data als ze alle mogelijke gevallen beschrijven. Als je over de gegevensverzameling kunt zeggen: “N = alles”.
Een goed voorbeeld is de FareCast applicatie van de Amerikaanse IT'er Etzioni. Met FareCast kon de gebruiker voorspellen of de prijs van een bepaald vliegticket zou gaan stijgen of dalen, en daarmee dus kunnen besluiten om nu te kopen of te wachten tot een later moment. Etzioni had toegang tot de reserveringsdatabases van de luchtvaartbranche, en daarmee tot de prijs van alle stoelen op alle vluchten op het merendeel van de vluchtroutes van de Amerikaanse burgerluchtvaart van de afgelopen jaren. Etzioni's software wist deze 200 miljard records te analyseren, verbanden te leggen, en daarmee voorspellingen te doen voor actuele prijzen.
De drie belangrijkste eigenschappen van Big Data komen al in dit voorbeeld aan bod (zoals ook één van de schrijvers vertelde op The Next Web):
-
Hoeveelheid
-
Rommeligheid
-
Correlatie
De hoeveelheid gegevens van ticketprijzen was ongeëvenaard. Daarnaast was de gegevensverzameling “rommelig“, dat wil zeggen: niet iedere database had dezelfde structuur, dus er was geen nette één-op-één vergelijking mogelijk. Ook was niet ieder gegevenspunt compleet: er miste hier en daar aardig wat data. En ten derde: FareCast deed zijn voorspellingen niet op basis van causale verbanden, maar op basis van correlaties tussen de gegevens. Dit is misschien wel het meest ingrijpende aspect van Big Data, want het daagt onze hele manier van denken uit. Stel: uit de analyse van de data blijkt dat de kleur van het vliegtuig de ticketprijs beïnvloedt. De data laat geen causaal verband zien, slechts een correlatie. Het is erg ingewikkeld en omslachtig om toch te proberen het causale verband aan te tonen. En onnodig, het werkt immers: op basis van deze correlatie kunnen toch betrouwbare voorspellingen worden gedaan.
Big Data is het beste te begrijpen als het afgezet wordt tegen “Small Data”. Small Data is een gegevensset die door steekproeven wordt verzameld. Het is per definitie een kleinere afspiegeling van een groter geheel. Omdat de gegevensset maar klein is, is het belang dat deze gegevens kloppen en compleet zijn des te groter. Rommeligheid op deze kleine schaal geeft direct een grove vertekening in de analyse. In de praktijk wordt Small Data ook gedreven voor causale verbanden in plaats van correlaties. Van te voren wordt een hypothese opgesteld waarbij twee of meerdere eigenschappen worden aangewezen, die al dan niet een causaal verband met elkaar zouden kunnen hebben. Vervolgens wordt een steekproef gedaan, die de hypothese (en daarmee het causale verband) moet bevestigen dan wel ontkrachten. Bij Big Data is het andersom: een bestaande bak met gegevens wordt gebruikt om eventuele correlaties te ontdekken. Omdat de gegevensverzameling zo groot is, kun je verbanden ontdekken die met een steekproef nooit ontdekt zouden kunnen worden.
Dataficatie
Maar waar komen die enorme hoeveelheden gegevens dan zomaar vandaan? Uit dataficatie. Dataficatie is waarschijnlijk nog wel het meest revolutionaire aspect van Big Data. Want die enorme gegevensverzamelingen moeten op één of andere manier opgebouwd worden, en dat gebeurt door het omzetten van de aspecten van ons dagelijks leven naar data. Google slaat al ons surf- en zoekgedrag op en zet het om in data. Mobiele telefoons met Geo-locatie kunnen altijd registreren waar we geweest zijn en dit omzetten in data. Er is zelfs sprake van vloeren met druksensoren, die al onze bewegingen kunnen dataficeren. Doordat data automatisch gegenereerd wordt, zijn steekproeven niet meer nodig om deze data te verkrijgen.
Maar een belangrijk kenmerk van “Big Data-denken” is ook het inventief gebruiken van data voor andere doeleinden dan waar het oorspronkelijk voor bedoeld was. Het voorbeeld van Etzioni gaf dat al aan, want de luchtvaartbranche heeft de gegevens nooit bedoeld om consumenten gereedschap te geven om voordeliger uit te kunnen zijn. Google is kennelijk kampioen in het hergebruiken van data. De geo-data die voor Google Maps verzameld is, kan hergebruikt worden voor de Google Driverless Car.
Een revolutie?
Big Data gaat groeien, en belangrijker worden. Maar zal het een revolutie ontketenen, en de “manier van werken en leven veranderen”, zoals het boek zegt? Er zullen zeker veranderingen komen, dat zien we nu al. Een belangrijke verandering die in het boek wordt besproken, is de transformatie van Amazon. Aanvankelijk maakte het bedrijf vooral gebruik van recensies door professionele boekredacteuren op de website. Dit was zelfs de kracht van Amazon. Totdat Amazon een systeem invoerde van aanbevelingen op basis van eerder bestelde boeken. De website liet gebruikers zo veel mogelijk producten zien van hun persoonlijke voorkeur. Dit zorgde ervoor dat de boekverkopen scherp stegen. Uiteindelijk veranderde Amazon zijn strategie: de redacteuren werden allemaal ontslagen, en de aanbevelingen werden de kern van de verkoopstrategie. Aanbevelingen die mogelijk zijn gemaakt door Big Data, en waar marketeers hun voordeel mee kunnen doen.
Maar in het boek worden nog verdere uitspraken gedaan over de invloed die Big Data zal hebben in de wereld. In tegenstelling tot de analyses van bestaande bedrijven als Amazon, snijden deze toekomstvoorspellingen geen hout. De schrijvers schetsen een wereld waarin Big Data de drijvende kracht achter de economie is. Er zouden nieuwe beroepen ontstaan: gegevensmakelaar en algoritmist. De gegevensmakelaar verdient zijn geld door te bemiddelen bij de gegevenshandel. En de algoritmist is een soort controleur of rechter die erop moet toezien dat gegevens op een onpartijdige manier worden gebruikt. Dit om gegevensmisbruik te voorkomen, waarbij statistieken zouden kunnen worden gebruikt om macht te vergaren of een politieke agenda na te streven. Dit is toekomstmuziek, bovendien van een toekomst waarin de rol van Big Data wellicht overschat wordt. We moeten zeker ons voordeel doen met Big Data, en daar ook zeker bewust mee omgaan, maar we moeten ook niet te hard van stapel lopen.
Bovendien is er op het begrip Big Data zelf ook wat af te dingen. Big Data zou drie kenmerken hebben: hoeveelheid, rommeligheid en correlaties. Correlaties zullen in belang toenemen, en als een correlatie aantoonbaar is, zal inderdaad de noodzaak om het causale verband bloot te leggen verminderen. Maar de mens zal zijn zoektocht om de wereld te begrijpen nooit staken. Op de lange termijn zal altijd het causale verband achter een correlatie blootgelegd worden, vooral op gebieden als geneeskunde en wetenschap. Ten tweede is rommeligheid ook geen bepalend kenmerk. Met het voortschreiden van de technologie zullen de technieken om gegevens te vergaren verbeteren, en zal rommeligheid ook tot het verleden behoren. Het nastreven van Big Data hoeft namelijk niet persé het nastreven van rommeligheid te betekenen.
Blijft nog over: hoeveelheid. De doctrine van “N = alles”. Dit aspect is wel bepalend, want het is inderdaad zo dat een verzameling van alle gegevens mogelijkheden biedt die met steekproeven onmogelijk zijn. Maar stel dat je een specifiek onderwerp wilt onderzoeken, dat nog niet gedataficeerd is? Een onderwerp dat gaat over de psychologie van mensen? Soms kun je niet om vragenlijsten en steekproeven heen. Maar Big Data zal zeker nog groter worden. De toepassingen die in het boek zijn beschreven zijn inspirerend. De toekomst zal leren wat we ermee kunnen bereiken.
Afbeelding: Thijs Brouwers
Leuk voorbeeld en ik moet wel zeggen dat Big Data vaak wat breder wordt gedefineerd: niet alleen veel en rommelig maar vooral uit diverse (openbare) bronnen. Het voorbeeld van de ticket is vooral BIG in de zin van groot. Niet ‘Big’ in de zin van veel verschillende bronnen. Net zoals je met Twitter de beurskoers kan bepalen (of meet searches op Google) zou je de ticketprijs wellicht ook kunnen voorspellen zonder toegang tot die database…. Dus met hoe vaak een locatie of maatschappij in zoekresultaten verschijnt en/of op Facebook. Dat zou pas echt big data zijn. Verder nog het verzoek: de hype bestaat vooral aan internationaal bekende cases die mensen aan elkaar door vertellen. Cool als die zijn; Leuker is het om praktijkcases van echte klanten te horen?
Klopt, het gebruik maken van meerdere bronnen is ook een belangrijk kenmerk van Big Data. Daar komt dan wel vaak rommeligheid uit voort, omdat deze verschillende datamodellen niet naadloos op elkaar aansluiten. Maar het lijkt of de schrijvers van het boek deze rommeligheid zelf als kenmerk van Big Data toeschrijven, en niet aan de data-diversiteit waar de rommeligheid een consequentie van kan is.