Een cursus omgaan met data scientists

Hoewel we bij data science en machine learning vaak denken aan realtime voorspellingen, automatisering en robots, is dat zeker niet altijd nodig.

Kevin van Kalkeren

22 september 2022, 11:00 3961 x gelezen

Eerder schreef ik over hoe je als organisatie juist stappen kan zetten, vóór je data scientists hebt rondlopen. Maar wat als je ze hebt? Grote bedrijven hebben hier eigen teams en infrastructuur voor, maar zo’n modus operandi zet je ook niet neer in 1 dag. Waar moet je op letten?

Natuurlijk zijn er genoeg ‘standaardzaken’ waar je als team of werkgever bij stil kan staan. Cultuur, voorwaarden: allemaal dingen die van belang zijn voor iedere functie (niet in de laatste plaats marketeers). Maar er zijn ook een aantal elementen waar je voor je bedrijf (of de overambitieuze data scientist) zelf alert op moet zijn. Welke plek data inneemt in jouw organisatie is een strategische overweging; hoe je datateam opereert moet daar een weerspiegeling van zijn.

Eigen stacks bouwen

Hoe bouw je dan aan je eigen machine learning team? Vier jaar geleden schreef Lukas Biewald al deze blog en ik geloof dat die nog steeds hout snijdt. Kort door de bocht: staar je niet blind op Big Tech als je zelf niet even groot bent. Ook data science kent haar gewichtsklasses. Het ontwikkelen van eigen algoritmen en infrastructuur komt pas in zicht als je een bepaalde schaal hebt bereikt. Tot die tijd, moet je duizendpoten hebben die van off the shelf-producten en open source libraries diverse use cases in productie kunnen krijgen (en wat dat betekent, onderzoeken we hieronder).

Dat betekent dus niet alleen zoeken naar generalisten in plaats van specialisten in je zoektocht, maar ook dat je scherp zicht moet houden op waar interne ontwikkelingen naartoe gaan. De kernvraag: “bestaat hier niet al iets voor?”.

Modellen in productie brengen

Als je dan je eerste project gaat starten, moet je ook de vraag stellen: “wat gaan we hier aan het einde mee doen?”. Niet eens om te checken of het nuttig is – dat heb je hopelijk daarvoor zelfs al gedaan – maar heel concreet: wat zijn de implementeerbare resultaten naar verwachting? Hoewel we bij data science en machine learning vaak denken aan realtime voorspellingen, automatisering en robots, is dat zeker niet altijd nodig.

Een model kan ook inzicht brengen, zonder dat je het vervolgens ‘live’ moet zetten. Niet voor niks hoor je vaak ‘Data science is statistics on steroids’: je kunt er hypotheses mee toetsen en gedrag verklaren. Wanneer gaat een klant bij je weg? Train een decision tree op dat vraagstuk en plak de (versimpelde) uitgeprinte versie boven je service desk. Welke kanalen dragen het meeste bij aan de aankopen? Met de juiste regressietechniek leer je welk gewicht elk kanaal heeft in die mix. Juist die inzichten geven je marketing nieuwe kansen voor optimalisatie, zonder dat er allerlei zware extra IT aan bod komt.

Te veel shoptalk? Eigenlijk is het de splitsing tussen: inzicht of product. Die eerste kan soms meer denkwerk kosten om concreet om te zetten in acties, maar die tweede kost per definitie meer ontwikkeltijd zodra je data scientist klaar is met zijn werk. Dat is altijd goed om vooraf duidelijk te hebben.

We moeten echt aan de deep learning

Veel van de ontwikkelingen op AI vlak gebeuren nu rondom deep learning. Of het nu gaat om text-to-image, objectherkenning, zelfrijdende auto’s: allemaal gebruiken ze varianten hiervan. In de kern is deep learning een tak van sport die het best tot zijn recht komt als het complexe data moet verwerken in taken die lijken op menselijk gedrag. De minder rechttoe-rechtaan voorspellingen, zogezegd. Gooit hoge ogen in de vakmedia en de toepassingen zijn interessant. Maar: vaak dus ook echt niet nodig voor jouw use case. Niet alleen omdat er veel ‘gangbaardere’ manieren zijn om je analysevraag te beantwoorden (met bijbehorende lagere infrakosten doorgaans), maar ook omdat deep learning gekenmerkt wordt door black box technologie. Zeker accuraat in de juiste toepassingen, maar niet terug te brengen tot ‘en waarom is dat dan zo?’. En als je je model niet (alleen) wilt gebruiken voor nieuwe voorspellingen, maar juist om patronen te leren, is dit niet de richting waar je in moet denken. Vermijd de verleiding van deze flashy techniek, tenzij je het echt goed kan onderbouwen.

Onderschat domeinkennis niet

Aan cursussen en opleidingen rondom data tegenwoordig geen gebrek. Technische skills zijn daardoor vaak wel aan te leren, maar om een data scientist nuttig te maken voor jouw organisatie, moet die jouw organisatie ook echt snappen. Tot het moment dat je data team groot genoeg is om data scientists met zuiver technische vraagstukken op te sluiten in een hok, moeten ze weten welke technieken in jouw context waarde toevoegen. Dat betekent niet per se specialist zijn op bepaalde tools of algoritmen, maar wel dé dataspecialist zijn in jouw vak. Een briljante data scientist binnenhalen uit een totaal andere branche om je eigen team op te zetten, kan daarmee alsnog een lange weg betekenen. Zorg dus dat je ook dit vooraf bevraagd. Kernvraag: “wat denk je aan ons vakgebied toe te kunnen voegen?”

En wanneer heb ik dan wat?

Developers hebben de naam deadlines als streefdata te zien, maar data scientists neigen ook zeker die kant op. In beide gevallen zeker niet vanwege een soort nerd-rebellie: het is gewoon lastig in te schatten hoeveel tijd iets kost, als je het nog niet hebt gedaan. Goede verwachtingen onderling uitspreken helpt daarbij.

Een belangrijk verschil echter met development: je hebt geen idee of er waarde zit in je vraagstuk. Niet dat elk development project automatisch lukt – verre van – maar daarbij heb je vaak wel een idee of er tools, frameworks of platformen zijn die deze probleemrichting ondersteunen. Dan blijft het rendementsvraagstuk, maar in het geval van data science komt daar in deze fase bij: valt er überhaupt iets te distilleren uit je data? Milestones afspreken om dat te bepalen is cruciaal om het onderscheid tussen pionieren en geld verbranden tijdig te kunnen maken. Kernvraag: “Hoe komen we achter de waarde van onze data?”

In één blogpost een blauwdruk neerzetten voor ieder bedrijf is onmogelijk, maar hopelijk levert dit genoeg stof tot nadenken op. Op zoek naar meer manieren om waarde uit data te halen? Bekijk ook deze reeks.

Kevin van Kalkeren

Chief Product Officer | Oprichter bij OnMarc | Dewey

Categorie

Plaats reactie Reactie annuleren

Je moet ingelogd zijn op om een reactie te plaatsen.