Datadonderdag: van bytes naar steeds meer business cases
Volgens Mark van Rijmenam, mede-initiatiefnemer van de tweemaandelijkse Data Donderdag, neemt de interesse in big data merkbaar toe. Zo heeft de Amsterdamse politie een model ontwikkeld om criminaliteit te voorspellen en wordt volop werk gemaakt van innovatieplatform Amsterdam Smart City. Ofwel de stad efficiënter, duurzamer, beter bereikbaar, veiliger en concurrerender maken door slimme omgang met data. De Europese Commissie heeft 500 miljoen euro beschikbaar gesteld voor op big data gebaseerde innovatie. En misschien nog veelzeggender is de recente aankoop door Microsoft van softwarebedrijf Revolution Analytics. Maar volgens sceptici is big data net tienersex: velen praten erover, weinigen doen het. Daarom komen op Data Donderdag vooral concrete praktijkvoorbeelden aan de orde.
Deze blog is geschreven door Kim ten Brink, marketingspecialist bij SAS en Mark van Rijmenam, founder van Datafloq
Big data = data
Eerst even terug naar de basis met Jos van Dongen, principal consultant bij SAS Nederland. Volgens hem is big data gewoon data. De schaal en opslagcapaciteit zijn weliswaar enorm toegenomen, maar datakwaliteit en toezicht op de verschillende aspecten van de data blijven onverminderd belangrijk.
“In omgevingen als Hadoop kun je gigantische hoeveelheden data kwijt: gestructureerd, ongestructureerd, tekst, beeld en video’s. Maar zonder goed ingericht datamanagement hebben deze data geen toegevoegde waarde. De term ‘Barcelona’ kan bijvoorbeeld duiden op de stad in Spanje of Venezuela, maar net zo goed op de voetbalclub of het lied van Freddy Mercury. Data kijgen pas betekenis in een context. Als je niet weet wat de context is, heb je er niets aan.”
Een business-issue, geen IT-feestje
Volgens Van Dongen is het niet verstandig om als een ‘Rupsje Nooitgenoeg’ data te verzamelen, zonder te overdenken wat het uiteindelijke doel is. “En dit is zeker geen IT-feestje, het begint allemaal bij de zakelijke gebruiker. De uitdaging is om een iteratief proces op gang te brengen waarin IT en de business samen vastleggen wat data betekenen en aan welke criteria data moet voldoen.”
Hij wijst op de voorspelling van onderzoeksbureau Gartner dat tegen 2017 een kwart van de organisaties een chief data officer heeft. “Nieuwe datagerelateerde rollen ontstaan doordat steeds meer organisaties prioriteit aan data-initiatieven willen geven. SAS ondersteunt deze behoefte met een geïntegreerd raamwerk van oplossingen die structureel voor de juiste en consistente data zorgen en ook voor geavanceerde analysemogelijkheden.”
Big data meets journalism
Bij het eerste getoonde praktijkvoorbeeld – het door de Vrije Universiteit Amsterdam ontwikkelde nieuwsmonitoringsysteem de RTreporter – speelt datakwaliteit nu eens geen noemenswaardige rol. Dit trenddetectiemodel filtert realtime data direct vanuit Twitter en bepaalt nieuws voordat het nieuws is. Sandjai Bhulai, Associate Professor aan de VU, toont een dynamisch dashboard waarop te zien is welke topics trending kunnen worden. Je ziet trefwoorden in tagclouds die elkaar wegduwen, afhankelijk van de urgentie. Voor NU.nl analyseert, organiseert en clustert de software zes miljoen tweets per dag. “De uiteindelijke kwaliteitscontrole ligt bij de journalist. Die bepaalt of iets nieuws is en volgt het op.”
Twitter to fame
“Mensen willen emotie en frustratie meteen kwijt. Dus gaan ze erover twitteren. Zo verwierf Jānis Krūms internationale faam met zijn eerste foto van de noodlanding van een Airbus op de rivier de Hudson. Wij clusteren op basis van woordgebruik, en later wellicht ook op semantiek. Voor de nieuwsmonitoring filteren we nieuwswebsites en politieberichten eruit. Sarcasme is bijvoorbeeld moeilijk te filteren. Het systeem is ook geschikt om de stemming rond producten, sportclubs en het betaalverkeer te monitoren. Ook zou je voor bijvoorbeeld taxichauffeurs kunnen monitoren wanneer en waar feesten op hun einde lopen.”
De maatschappij mobieler, socialer en gezonder maken
De Nationale DenkTank heeft in korte tijd tien praktijkcases uitgewerkt. Deze stichting selecteert jaarlijks 20 tot 25 topstudenten die zich over een actueel maatschappelijk thema gaan buigen. Dit jaar onderzochten 23 jonge academici hoe big data gebruikt kan worden om de maatschappij mobieler, socialer en gezonder te maken.
Na een intensieve zomerschool bij SAS in Huizen hebben ze gedurende een analysefase van vier weken met meer dan 400 experts gesproken. Op de toetsing van de analyse volgde een oplossingsfase van twee maanden. Dit met als resultaat tien praktische oplossingen voor de domeinen mobiliteit, infrastructuur, sociaal en gezondheidszorg. Sommige zelfs al met prototype of met vergaande plannen om ze met partners te realiseren. Op Data Donderdag konden we een blik werpen op Hackjehokje en Pacmed en op de plannen voor de Big Data Academy.
Bewustzijn vergroten met Hackjehokje
81 procent van de Nederlanders weet niet wat big data is, zegt Marieke Doelman van de DenkTank. “En 97 procent van de internetters gebruikt Google, terwijl 84 procent het bedrijf niet vertrouwt met hun data. We laten dagelijks een spoor van data achter, op basis waarvan persoonlijke gebruikersprofielen tot stand komen. Google-zoekresultaten en advertenties worden vervolgens afgestemd op het profiel dat aan jouw identiteit is gekoppeld.”
Zo ontstaat een vertekend beeld van het ‘objectieve internet’. Met als gevolg tunnelvisies en discriminatie: ongelijke toegang tot informatie en mogelijkheden. “Om hier iets aan te doen is Hackjehokje ontwikkeld. Met deze plug kun je kiezen uit een serie identiteiten en surfen vanuit een ander profiel. Zo raken mensen zich bewust van profilering en zien ze wat het effect ervan is.”
De zorg verbeteren met Pacmed
De geschatte waarde die big data kan toevoegen aan de Nederlandse economie bedraagt 45 miljard euro. Een groot deel hiervan wordt naar verwachting gerealiseerd in de gezondheidszorg, bijvoorbeeld bij de ongeveer 10.000 huisartsen. Vanwege de diversiteit aan patiënten kunnen zij onmogelijk alle medische informatie over de vele verschillende specialismen verwerken. Pacmed kan uitkomst bieden: deze tool verwerkt de ervaring van huisartsen tot overzicht en adviezen op maat.
“De tool combineert ervaringen en adviseert op basis van wat blijkt te werken bij andere patiënten. Zo wordt huisartsenzorg practise-based”, aldus Willem Herter van de DenkTank. De volgende stap is onderzoek naar behandeling van urineweginfecties, waarvoor jaarlijks bijna drie miljoen huisartsconsulten plaatsvinden. “Er is veel variatie bij de behandeling, bovendien is zorgvuldig behandelen zeer relevant vanwege antibioticaresistentie. Bij dit onderzoek krijgen we wetenschappelijke begeleiding van diverse medische specialisten. Ook hebben al meerdere onderzoeks- en huisartsencentra en bedrijven aangegeven dat ze willen meewerken.”
Bètatalent omvormen tot data scientist
De Harvard Business Review noemt data scientist het meest sexy beroep van de 21ste eeuw. Maar er zijn simpelweg te weinig data scientists om big data-toepassingen te realiseren. Hoe kunnen we het beschikbare bètatalent omvormen naar een bigdataprofiel? De DenkTank heeft een plan gepresenteerd om masterstudenten, PhD’s en werkenden via een Big Data Academy op te leiden tot data scientist.
Hierbij wordt de discrepantie tussen de vaardigheden van de studenten en de wensen van de arbeidsmarkt geadresseerd. Tevens is er aandacht voor het ontwikkelen van maatschappelijke waarde. Nog meer oplossingen zijn te vinden in het eindrapport van de Nationale DenkTank. Ook de volgende editie van datadonderdag, die gepland staat op 23 april, zal ongetwijfeld nieuwe aansprekende cases voor het voetlicht brengen!