Big data: 3 trends binnen een exploderend veld

Over de democratisering van data science, de big data-appmarkt en big data-software

       @ThomasvanManen    30902 x bekeken

Big data: 3 trends binnen een exploderend veld

Dat big data op zichzelf een van de grootste (IT-)trends is, behoeft geen argumentatie. Hebben we het over big data, dan hebben we het vaak over de data-explosie, van targeted advertising naar targeted anything, tools als Hadoop, predictive analytics en vooral social analytics. Binnen big data zelf zijn ook een paar trends waarneembaar die erg interessant zijn voor bedrijven en organisaties die momenteel bezig zijn zich te verdiepen in het onderwerp of zelfs al bezig zijn een big data-strategie op te tuigen. De trends zijn er vooral op gericht big data laagdrempeliger en toegankelijker te maken. Ik licht er in deze post 3 uit: de democratisering van data science, de big data-appmarkt en big data-software.

Rapport

Download ook het gratis rapport Gedrag voorspellen met Big Data van VINT/Sogeti, waaraan Thomas meewerkte.

Big Data communities: de democratisering van data science

Het verhaal van het tekort aan data scientists is bekend. Een rapport van McKinsey voorspelt een tekort van 200,000 skilled data managers alleen al in de US in 2016. Daarom zijn de initiatieven die data science proberen te decentraliseren een van de belangrijkste ontwikkelingen in het big data-veld.

Een aansprekend voorbeeld hiervan is Kaggle, een combinatie van crowdsourcen en gamification. Kaggle is een platform voor predictive modelling- en analytics-competities. Het idee is simpel: bedrijven en onderzoekers (bijvoorbeeld NASA, Wikipedia en Deloitte) posten hun datasets op Kaggle en data scientists van over de hele wereld participeren in een contest om de beste modellen op basis van de data te formuleren. De meest aansprekende competitie leverde de winnaar 3 miljoen op van het Heritage Provider Network als beloning voor een predictive model dat voorspelt welke mensen de meeste kans maken op ziekenhuisopname o.b.v. hun historie van verzekeringsclaims.

Voor bedrijven die weinig kennis van data science in huis hebben, bieden platformen als Kaggle een community met experts waarvan gebruikgemaakt kan worden wanneer nodig. De ranking-elementen zorgen er daarbij voor dat de meest capabele kandidaten goed zichtbaar zijn.

Een andere vorm van democratisering is big data education. Coursera, een educational technology company opgericht door computer science-professors Andrew Ng en Daphne Koller van Stanford University, is hier een voorbeeld van. Coursera biedt 14 courses aan die gerelateerd zijn aan statistiek en data-analyse. En de potentie hiervan is al zichtbaar.  Luis Tandalla, een Ecuadoriaanse student aan de universiteit van New Orleans, nam deel aan een paar courses via Coursera en won al een Kaggle-competitie. Ook de nummers 2 en 3 uit de eerder genoemde Heritage Provider Network-competitie zijn Coursera-studenten.

Big Data: there’s an app for that

Apps zijn inmiddels ook in het big data-veld te vinden. Big data-serviceproviders maken de informatie en expertise van data scientists steeds meer toegankelijk via apps. Prior Knowledge bijvoorbeeld heeft een methode ontwikkeld waarbij app-ontwikkelaars een laag van predictive analytics kunnen toevoegen zonder kennis van statistische analyse.

Een ander voorbeeld is Alteryx, dat een big data-analytics apps studio opende als onderdeel van Alteryx 8.0. De store bevat apps maar ook een app-builder. Een van de apps in de store is de Big Box Retail Analysis:

This Analytic App analyzes the networks of three fictitious big box retailers (Box Max, Super Center and Giant Depot). It compares population coverage and competitive position based on a competitive trade area size and a maximum travel distance trade area size.

De methode is simpel: vind een use case voor big data – de analyse van gebruikersgedrag, customer service, netwerk security – en maak er een app van die bedrijven kunnen kopen. Geen ontwikkelingstraject, maar wel een outputmethode die voor velen toegankelijk is met een app als distributieformat.

Big Data software

In de softwareontwikkeling in het big data-veld is men hard op weg big data om te buigen van expert-werk naar ‘kinderspel’ (hier chargeer ik enorm). Platfora bijvoorbeeld wil Hadoop zo makkelijk maken dat zelfs ik het begrijp. Dit is deels eens UX-kwestie, maar het gaat er vooral om dat geavanceerde data science-functionaliteit is ingebouwd i.p.v. dat de gebruiker zelf aan de slag gaat met queries. Bij Datahero draait het om visualisaties: gebruikers uploaden een dataset en de tool doet de rest. Het draait hierbij allemaal om snelle en duidelijke visualisaties die door iedereen correct te interpreteren zijn.

Tot slot is een voorbeeld waar Kaggle en software samenkomen ook erg interessant. Chorus biedt gebruikers van de software ‘vooraf-geïnstalleerde data scientists’ aan in samenwerking met Kaggle. Gebruikers van Chorus kunnen met een druk op de knop zoeken naar Kaggle-users op basis van ranking, expertise en locatie. Vervolgens kunnen de Kagglers per uur ingezet worden om datavraagstukken op te lossen. Data science on demand dus eigenlijk.

Wrap-up

Al deze trends staan nog in de kinderschoenen, ze geven echter wel een richting aan over hoe de praktijk van big data zich deels zal ontwikkelen. Big data is niet voorbestemd voor de ivoren toren van de paar mensen binnen een organisatie die weten hoe ze cake moeten bakken van grote datasets. Big data wordt langzaamaan gedecentraliseerd, toegankelijker een laagdrempeliger in gebruik. Dit is deels een UX-kwestie, maar het ontstaan van big data-communities die aangeboord kunnen worden speelt hierbij ook een grote rol wat mij betreft. In output is visualisatie de grootste voorwaarde voor een breed gebruik van big data.

"Big data is de nieuwe olie", is een veel gehoorde spreuk. Als het gaat om olie is ook niet iedereen in staat het uit de grond te halen, maar iedereen kan overweg met het eindproduct dat uit de pomp komt. Bovenstaande trends dragen er aan bij dat big data straks ‘uit de pomp komt’. Big data als eindproduct.

0

Gepost in: E-business , Artikel , big data

Plaats een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

  • Maximaal 5000 karakters. Basis HTML tags zoals <a> zijn toegestaan.

  • Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.