De 7 voordelen van workflowgebaseerde analytics

12 oktober 2017, 09:00

Programmeertaal R en scriptingtaal Python zijn de afgelopen paar jaar verworden tot heilige huisjes in de wereld van analytics. Grafische, workflowgebaseerde analyticsplatforms zijn in deze wereld ondergesneeuwd geraakt en staan in de schaduw van hun codegebaseerde alternatieven. Naar mijn mening onterecht, want in veel gevallen is een grafisch workflowplatform een betere keuze.

Heilige huisjes

De analyticswereld kent twee heilige huisjes: R en Python. R legde in 2000 de basis voor een ware revolutie op het gebied van analytics. Was het voorheen voorbehouden aan dure closed source-oplossingen, ineens was daar een krachtige taal die bovendien vrij beschikbaar was en waaraan iedereen kon meebouwen. Toch duurde het tot 2014 voordat de populariteit enorm toenam. Niet zo vreemd, want big data-analytics en datamining hebben sinds die tijd een grote vlucht genomen. Inmiddels zijn deze technologieën in de wetenschap, bij de overheid en in het bedrijfsleven niet meer weg te denken.

Het evangelie van codebaseerde analytics via R (en Python als ‘supporting script language’) is amper 3 jaar later diep doorgedrongen in het vakgebied. Kritische geluiden op deze manier van werken kunnen doorgaans rekenen op veel hoon. Zo werd de auteur van een kritisch artikel over R in de commentaarsectie neergesabeld door R-adepten.

Jazeker, R heeft nadelen

Natuurlijk, R is een krachtige en flexibele programmeertaal waarmee je zo goed als ieder analyticsproject kunt vormgeven. Maar het heeft ook zijn nadelen. Het is niet eenvoudig en (daardoor) voorbehouden aan diegenen die overweg kunnen met code. Bovendien verandert een project in R al snel in een grote hoeveelheid code, waarvan de logica anderen ontgaat.

Een grafische, workflowgebaseerde aanpak kent die nadelen niet. Deze methode heeft daarnaast een aantal eigenschappen die bijzonder aantrekkelijk zijn voor organisaties.

Wat is een workflowgebaseerde aanpak?

De basis voor workflowgebaseerde analytics is een grafisch softwarepakket. Gartner spreekt overigens van ‘data science platforms’ en hanteert hiervoor de volgende (vertaalde) definitie:

Een samenhangende softwareapplicatie die een mix van basisbouwblokken biedt die essentieel zijn voor het creëren van allerlei datawetenschappelijke oplossingen en voor het opnemen van die oplossingen in bedrijfsprocessen, omliggende infrastructuur en producten.

Een hele mond vol. Gelukkig is het principe relatief eenvoudig. De software geeft een grafische weergave van het analyticsproces middels een soort flowchart die vaak links begint en rechts eindigt. Acties zijn gegroepeerd in ‘nodes’, een soort knooppunten in het schema waarin een bewerking, procedure of proces plaatsvindt.

De logica achter deze stappen voert u eenvoudig in middels bijvoorbeeld keuzemenu’s. U kunt daarbij kiezen uit allerlei voorgedefinieerde processen voor bijvoorbeeld datamanipulatie, dataexploratie, data-analytics, scoring en reporting. Het integreren van de verschillende processen en bewerkingen is een kwestie van klikken en slepen. Werken met code is in principe niet nodig. Dat wil overigens niet zeggen dat u geen code kunt gebruiken: veel grafische workflowtools ondersteunen talen als R en Python.

Voordelen

Een grafische, workflowgebaseerde aanpak biedt een aantal voordelen ten opzichte van analytics via coding:

1. Het maakt data-analytics begrijpelijker voor de business

Data-analytics is goud waard in de boardroom. Maar dan moet die boardroom de uitkomsten ervan wel op waarde kunnen schatten. Workflowgebaseerde analytics is voor C-level management beter te volgen. Niet onbelangrijk, want voor de boardroom geldt vaak terecht: als ze het niet begrijpen, gaan ze niet akkoord.

2. Het heeft een minder steile learning curve en is daardoor betaalbaarder

Grafische workflowanalytics is eenvoudiger dan analytics in code en dus gemakkelijker te leren. Dit betekent dat meer mensen over de benodigde capaciteiten beschikken om hiermee uit de voeten te kunnen. Een beetje analist kan het zich eigen maken.

Dat is enorm welkom, want R en Python zijn duidelijk minder laagdrempelig. Ze vereisen goede datawetenschappers die bovendien sterk zijn met code. Die zijn schaars en kostbaar. Een workflowgebaseerd analyticsplatform maakt analyticsprojecten dan ook betaalbaarder.

3. Het maakt effectievere verdeling van de workforce mogelijk

Geen enkele organisatie heeft een onbeperkte capaciteit qua kennis en vaardigheden. Het is daarom belangrijk om de beschikbare kennis zo effectief mogelijk in te zetten. Met grafische workflowanalytics kan een analyticsteam de taken efficiënter verdelen. De datascientists kunnen de modellen bouwen, terwijl de data-analisten het uitvoerende werk doen en de modellen onderhouden.

Bij analytics op basis van R en Python is het slim verdelen van werk veel lastiger. Iedereen die aan het proces wil bijdragen, moet op zijn minst over codeervaardigheden beschikken. Dat betekent in de praktijk vaak dat al het analyticswerk door datawetenschappers gedaan moet worden. Dat maakt de gehele operatie niet alleen kostbaarder, maar gezien het beperkte aantal beschikbare datascientists ook minder vlot.

Een voorbeeld van het bouwen van een model in een workflow-gebaseerd analyticsplatform.

4. Het maakt analytics transparanter en inzichtelijker voor buitenstaanders

Een grafische workflow leest als een logisch schema. In principe kan iedere buitenstaander met enig begrip van de materie begrijpen wat er gebeurt. Dankzij een schematische weergave van functionaliteit, gegroepeerd in verschillende ‘nodes’, is snel duidelijk welke logica gehanteerd wordt. Daardoor kunnen anderen gemakkelijker meedenken en is de transparantie van het proces groter.

Bij codegebaseerde analytics is die transparantie er niet of nauwelijks. Om te begrijpen wat code doet, moet je het kunnen lezen. Dat is bij een heel eenvoudige functie voor sommige niet-programmeurs nog te doen, maar al snel zijn projecten veel complexer dan dat. Hierdoor is het voor managers moeilijk om projecten aan te sturen. Zij hebben immers geen idee waarmee de datawetenschappers precies bezig zijn en hoe de vorderingen verlopen. Worden analyticsprojecten uitbesteed, dan is niet duidelijk of de inspanningen daadwerkelijk overeenkomen met de kosten. Kortom, projecten in code zijn een ‘black box’ voor buitenstaanders.

5. De overdraagbaarheid van projecten groeit

De grotere transparantie bevordert ook de overdraagbaarheid. Een buitenstaander die voorheen niet betrokken is geweest bij een project, kan in relatief korte tijd zien wat er gaande is en de werkzaamheden overnemen.

Bij projecten in code is goede overdracht alleen mogelijk als de code aan allerlei voorwaarden voldoet. Zo moet deze netjes gestructureerd zijn en voorzien van de nodige toelichting. Lang niet alle R- en Python-experts hebben deze discipline. Daarbij komt dat veel programmeurs hun eigen specifieke stijl hebben. Dat maakt het voor derden lastiger om een project over te nemen en te doorzien wat de precieze werkwijze en logica waren.

Een voorbeeld van het manipuleren van data in een workflow-gebaseerd analyticsplatform.

6. Net zo flexibel

Toegegeven: R en Python staan bekend om hun grote flexibiliteit. Mis je functionaliteit? Dan vul je die eenvoudig aan met plugins of programmeer je zelf aanvullende modules. Toch is een workflowgebaseerde aanpak beslist niet minder flexibel. Ook dergelijke software kan overweg met code, dus is er alle vrijheid om specifieke functionaliteit te ontwikkelen.

Bovendien kan een workflowgebaseerd softwareplatform de output exporteren naar een keur aan databases en in vele bestandsformaten, net als met R en Python mogelijk is.

7. Ook in open source beschikbaar

Een groot voordeel van R en Python is het opensourcekarakter. Daarmee bespaart een organisatie fors op licentiekosten. Bovendien kunnen de talen dankzij dat het opensourcekarakter rekenen op een brede steun van een enthousiaste en grote community.

Toch is dit voordeel niet voorbehouden aan deze talen. Ook voor een grafische workflowgebaseerde aanpak bestaan opensourcetools met een bruisende community en een aantrekkelijk prijskaartje, zoals KNIME. Van dit pakket bestaat zelfs een geheel gratis variant.

Ruud de Bruijn
Managing Partner bij K2 Marketing B.V.

Ruud de Bruijn is een doorgewinterde expert in marketing intelligence en database-analyses. Hij knoopt en zekert de lijnen tussen marketing en IT en weet precies hoe hij dat moet doen. Dankzij zijn resultaatgerichte aanpak en analytisch vermogen vertaalt hij complexe vraagstukken naar toepasbare oplossingen. Want Ruud staat bekend als pragmaticus. Geen nodeloos ingewikkelde constructies, hij zorgt er gewoon voor dat alles werkt waarvoor het bedoeld is. Met zo’n instelling en doelgerichte aanpak is hij de gids met wie u de beklimming vol vertrouwen durft aan te gaan. Ruud is een van de partners van K2 Marketing.

Categorie

Marketingfacts. Elke dag vers. Mis niks!