Wat zoek jij in een data-scientist?

24 juni 2019, 09:00

We willen meer doen met data: je hoort het steeds vaker binnen organisaties. Data-science toepassen is tenslotte dé manier om meer winst te maken, het imago te versterken of het marktaandeel te vergroten. Maar ‘laten we meer doen met onze gegevens’ klinkt makkelijker dan het is. Alleen gegevens tot je beschikking hebben, is niet voldoende. De juiste mensen, de juiste tools en de juiste mindsets zijn nodig om goed gebruik te maken van deze gegevens. Alleen op deze manier kan ‘de gouden belofte’ van data-science werkelijkheid worden.

Veel organisaties hopen met de aanstelling van een data-scientist gouden beloften te kunnen verwezenlijken, maar be carefull what you wish for. Wat moet je weten wanneer je denkt dat je als organisatie ‘klaar’ bent om een data-scientist aan te nemen?

1. De functietitel ‘data-scientist’ wordt te pas en te onpas gebruikt

De term ‘data-scientist’ is hip & happening, waardoor veel mensen te snel de neiging hebben om zichzelf zo te noemen. Dit kan voor complexe situaties zorgen tijdens sollicitatieprocessen. Zo kunnen de verwachtingen bij beide partijen over de werkzaamheden niet overeenkomen. Daarnaast heeft lang niet iedereen alle vereiste kennis om data-science op adequate wijze toe te passen. Toegegeven: ik noem mezelf ook ‘Senior Data Scientist’. Ik herhaal: Senior Data Scientist. Ik moet eerlijk bekennen dat ik nog niet álles weet, maar wel een heel eind op weg ben.

“Veel organisaties denken dat ze een data-scientist zoeken, terwijl ze eigenlijk op zoek zijn naar een dataduizendpoot”

2. De verwachting dat data-scientists hetzelfde doen als data-engineers

Veel organisaties denken dat ze op zoek zijn naar een data-scientist, terwijl ze eigenlijk op zoek zijn naar een zogenaamde dataduizendpoot. Organisaties verwachten dat deze persoon de ICT-infrastructuur opzet, data prepareert, een goed model maakt en vervolgens integreert in de organisatie. Data-scientists hebben inderdaad verstand van deze onderdelen. Maar dat allemaal from scratch uitvoeren, is te veel van het goede. Sommige onderdelen behoren tot data-engineering: het gestructureerd en geautomatiseerd verzamelen van data. Dit is een vakgebied dat vaak wordt ondergesneeuwd.

3. Eén data-scientist is geen data-scientist

Een veelgemaakte fout is dat een data-scientist geen interne sparringpartner heeft. Deze partner dient minstens een soortgelijk kennisniveau te hebben over bijvoorbeeld de data en de praktijkimplicaties van algoritmes. Tijdens mijn eerste baan heb ik ervaren hoe lastig het is om de enige data-scientist te zijn binnen een organisatie(onderdeel). Het is lastig om de juiste informatie te achterhalen, en ook is er vaak geen ICT-infrastructuur aanwezig om taken te automatiseren. Dit laatste resulteert in veel handmatige, repetitieve werkzaamheden die veel tijd in beslag nemen. Hierdoor blijft er weinig tot geen tijd over voor hetgeen waarvoor je bent aangenomen: data-science. Dit is ongunstig voor zowel werknemer als werkgever.

Maar hoe kom je er dan achter dat jouw organisatie wél klaar is voor een data-scientist? En hoe weet je dat je de juiste persoon voor de juiste functie aanneemt? Om deze vragen te beantwoorden, moet je weten wat je met data-science kan doen, wat een data-scientist moet kunnen en hoe een data-scientist zichzelf kan ontwikkelen.

Wat is data-science en wat kun je ermee?

Data-science bestaat uit computerscience, wiskunde, statistiek en ICT. Waar een traditionele statisticus alles weet over zijn vakgebied, weet een data-scientist hoe je dit moet combineren met een handjevol programmeerskills en wat logica. Het idee achter data-science is dat waardevolle informatie uit een grote dataset wordt achterhaald. Hieronder vallen patroonherkenningstechnieken waarmee je onderliggende verbanden kunt ontdekken. Ook classificatie- en regressie-algoritmes vallen onder data-science, zodat je kunt voorspellen op individueel niveau. Met andere woorden: met data-science kun je als organisatie beter inspelen op de wensen van individuele klanten. Ook kan data-science ervoor zorgen dat organisaties sneller en adequater beslissingen nemen.

Verstand van zaken

Stel je eens voor dat je een manager bent bij een MKB-bedrijf. Je hebt een vacature voor een data-scientist online gezet, waar de onderstaande drie personen op reageren:

  • Stefan: tien jaar werkervaring binnen de ICT-branche
  • Pia: vijf jaar werkervaring als data-analist
  • Bo: geen werkervaring, net de master Artificial Intelligence afgerond

Een data-scientist moet niet alleen verstand hebben van computerscience, wiskunde, statistiek en ICT, maar moet ook de praktijk kunnen vertalen naar iets wat de computer begrijpt. Op deze manier hanteert de computer de juiste definitie voor de te voorspellen variabele. Een data-scientist dient hiervoor goed te communiceren en samen te werken met de business.

“Een data-scientist moet de praktijk kunnen vertalen naar iets wat de computer begrijpt”

Stel je voor dat je Stefan kiest. Na een aantal maanden heeft hij een goede ICT-infrastructuur gecreëerd, waardoor voortaan met data gewerkt kan worden. Ook zijn alle gebruikte bronnen gevalideerd en verbeterd. Je hebt alleen nog geen antwoord gekregen op de business-gerelateerde vraagstukken die je hebt gesteld. Waarom niet, vraag je je af?

Stel je voor dat je Pia kiest. De eerste weken constateer je veel progressie en verbaas je je over wat Pia allemaal uit de data heeft weten te halen. Ze is erg enthousiast en heeft genoeg ideeën, maar de data blijkt nog niet geheel bruikbaar of beschikbaar te zijn. Daarnaast kunnen gegevens alleen opgehaald worden door deze handmatig te downloaden uit verschillende bronsystemen. Door al deze handmatige werkzaamheden komt Pia nauwelijks toe aan het beantwoorden van de business-gerelateerde vraagstukken door middel van data-science.

Stel je voor dat je Bo kiest. Ze krijgt behoorlijk wat begeleiding, aangezien ze nog niet eerder met ongestructureerde data heeft gewerkt. Het algoritme dat Bo ontwikkelt, werkt niet beter dan de eerder bedachte oplossingen. Deze tegenvaller had voorkomen kunnen worden door van tevoren een benchmark vast te leggen waaraan de modelresultaten moesten voldoen. Ook hadden ervaren data-scientists moeten helpen bij het selecteren van de juiste data.

Zowel Stefan, Pia als Bo hebben ieder zowel voor- als nadelen. Wél vullen ze elkaar perfect aan. Stefan richt een werkomgeving in, en ontsluit de data naar een datamart of datawarehouse. Pia maakt de vertaalslag tussen data-science en de business. Bo kan een voorspelmodel ontwikkelen, gebaseerd op de gestructureerde datasets van Stefan, en met behulp van business-gerelateerde feedback van Pia.

Oefenen, oefenen, oefenen

Het vakgebied rondom data-science staat niet stil, en de beschikbare kennis groeit. Geef daarom als organisatie je data-scientists de ruimte om nieuwe methoden en technieken uit te proberen. Ben je data-scientist? Blijf jezelf dan uitdagen en ontwikkelen. De enige manier om beter te worden binnen data-science is oefenen, oefenen, oefenen.

Hoe je dit moet doen, valt te betwisten. In online cursussen ontbreekt vaak de diepgang waarmee studiemateriaal gegeneraliseerd kan worden naar de praktijk. Daarnaast zijn aangeboden trainingen vaak te specifiek, en ligt de focus vaak alleen op afgekaderde settings. Wil je wel een online cursus volgen? Pas de opgedane kennis dan gelijk toe op een onderwerp waar je in de praktijk mee bezig bent. Zo verwerk je de kennis beter, en hier heb je op de lange termijn profijt van. Ook weet je hoe je deze kennis moet toepassen. Er zijn maar weinig mensen die voldoende discipline hebben om data-sciencekennis, opgedaan vanuit online cursussen, direct compleet eigen te maken. Daarnaast zijn er maar weinig mensen die ook nog eens in staat zijn om deze kennis te generaliseren naar dagelijkse werkzaamheden.

Kennis van data-science versus kennis van het veld

Data-scientists kunnen op twee gebieden van elkaar onderscheiden geworden: 1) kennis van data-science en 2) kennis van het veld.

Een business-analist heeft weinig kennis van data-science, maar veel kennis over het veld waarin het wordt toegepast. Een data-scienceconsultant heeft daarentegen veel kennis over data-science, maar (nog) weinig kennis over het veld. Aangezien ik consultant en trainer ben, val ik onder dit type. Ik werk continu in een andere business-setting, maar ik kan wel mijn kennis generaliseren naar al deze settings. De interne data-scientist is de ideale data-scientist: deze persoon heeft kennis over zowel data-science als het veld, en weet dit goed te combineren.

“Creër een multidisciplinair team om een data-scientist succesvol te laten zijn”

In de praktijk kunnen de hierboven omschreven typen veel van elkaar leren. Als je deze typen combineert, is het niet alleen gunstig voor de organisatie, maar ook voor de Stefans, Pia’s en Bo’s in kwestie. Zij kunnen de opgedane kennis – geleerd van elkaar – direct toepassen in de praktijk. Daarnaast wordt er tijdens dit soort processen gewerkt aan de relatie tussen de business en het data-scienceteam. Kortom, de meerwaarde van deze formatie heeft zich al vaak bewezen.

Succes gegarandeerd

Hoe zorg je ervoor dat je er als organisatie ‘klaar’ voor bent om een data-scientist aan te nemen? Ten eerste moet je duidelijk in kaart brengen wat je precies van een data-scientist verwacht. Qua kennisniveau, qua werkzaamheden, en qua beoogde resultaten. Houd dit goed in gedachten tijdens het sollicitatieproces, en stel kritische vragen aan de sollicitanten. Ten tweede moet je een multidisciplinair team creëren om een data-scientist succesvol te laten zijn. In dit team moeten meerdere facetten, zoals datakwaliteit en de business-situatie, een rol spelen. Communicatie tussen de teamleden, met ieder een andere expertise, is ook van essentieel belang. Ten slotte is het belangrijk om een data-scientist uit te dagen, verder te laten denken en aan te sporen om zich te ontwikkelen, zowel intern als extern.

Sabine den Daas
Senior Data Scientist bij Totta data lab

Als afgestudeerd econometrist ben ik binnen data science startup 'Totta data lab' verantwoordelijk voor het oplossen van (big) data vraagstukken, het bouwen van voorspelmodellen en het analyseren van de bruikbaarheid van modellen en oplossingen. Ik ben voortdurend op zoek naar nieuwe uitdagingen en ik wil mezelf blijven ontwikkelen. Daarom streef ik ernaar om de lat bij elke opdracht weer een treetje hoger voor mezelf te leggen. Binnen een innovatieve en jonge onderneming zoals Totta data lab, heb ik de mogelijkheid om deze peilers te combineren en tot een mooi eindresultaat te komen.

Categorie
Tags

Marketingfacts. Elke dag vers. Mis niks!