Aan de slag met R
De meeste web analyticstools zijn zowel briljant als gehandicapt. Briljant omdat je snel mooie rapporten en prima visualisaties uit een enorme bak data kunt halen. Via drill-down en segmentatie kun je snel en makkelijk tot inzichten komen. Gehandicapt omdat de berekeningen die je wilt maken vaak net niet mogelijk zijn en dat er vaak precies andere dingen berekend worden dan je zou willen. Of je wilt nog andere data betrekken in je cijfers.
Dit artikel is geschreven door analytics & optimization expert Jules Stuifbergen en op 28 januari 2015 gepubliceerd op Webanalisten.nl
Wat doe je dan? De data exporteren en inlezen in een andere tool. Meestal is dit Excel. Soms Tableau. En als je de portemonnee trekt, kan je een tool als SPSS gebruiken.
Maar ken je R al? Dit analysepakket is open source (en gratis te downloaden), werkt op Windows, Mac en Linux, en heeft veel voordelen ten opzichte van Excel. Ik raad elke analist die iets verder wil kijken dan een webanalyticstool aan zich te verdiepen in R.
In deze blogpost zal ik kort beschrijven op welke gebieden ik R beter vind dan Excel en kort beschrijven hoe je te werk gaat. Als je daarna nog verder wilt kijken, geef ik je links naar een simpele, luchtige tutorial en naar een ‘echte’, serieuze cursus. Succes!
De voordelen van R boven Excel
R heeft mijns inziens veel voordelen boven Excel. Hieronder een greep:
- De databronnen (die je in erg veel formaten kan inlezen) staan los van de analyse. Dat wil zeggen: de data zijn de data en de bewerkingen hierop staan in een los R-script
- De analyse die je doet is hierdoor leesbaar. Je kunt een script (inclusief documentatie) veel makkelijker lezen dan de formules die her en der in een Excel-sheet staan
- De analyse is herhaalbaar. Je kunt hetzelfde script toepassen op een nieuwere versie van de data
- De analyse (of stukken daaruit) zijn meerdere keren toepasbaar
- Je formules en syntax zijn altijd hetzelfde.
- Nooit problemen met Engelse versus Nederlandse versies van de software
- Nooit problemen tussen Windows- en Mac-versies
- Er zijn enorm veel uitbreidingen beschikbaar en een vriendelijke online community die je graag verder helpt
- Je kunt (persoonlijke mening) makkelijker focussen op wat je wilt weten, omdat je niet de hele tijd bezig bent met het selecteren van cellen en bedenken waar je je formule moet zetten
- R is enorm krachtig, snel en makkelijk om data te transformeren van het ene formaat naar het andere
De nadelen van R
Zoals elk pakket, heeft R ook zijn nadelen.
- Steile leercurve: vooral in het begin zal het erg lang duren voor je R-skills op hetzelfde niveau zijn als die van Excel
- Hoge drempel: voor een ad-hoc simpele analyse duurt het vaak wat langer om het in R te doen
- Er zijn nog niet veel mensen die met R kunnen werken: als je werkt in een team, zal in het begin niet iedereen je snappen
Wanneer R en wanneer Excel?
Ik zou zeggen: gebruik Excel
- voor ad-hoc werk, waarbij je al werkt met Excel brondata
- als documentatie niet belangrijk is en de datasets klein zijn
- voor het simpele werk
- als je data wil koppelen binnen Office
Gebruik R:
- voor uitgebreide analyses
- als de methode van analyseren onderdeel is van je verhaal
- de selectie van brongegevens (wat doe je met missende waardes, laat je rijen weg, etcetera)
- als je meerdere methodes gebruikt op dezelfde data
- voor analyses die je vaker dan één keer op dezelfde manier moet uitvoeren (weekrapportages iemand?)
- als je te maken hebt met databronnen in verschillende formaten of bronnen (Excel-sheet, tekst files, web-bestanden, etcetera)
Hoe ziet R eruit en hoe begin ik er mee?
Het makkelijkste is om het programma R Studio te downloaden en installeren. Hiermee heb je in één keer het pakket R zelf en een werkomgeving die gebruiksvriendelijk is.
Als je R Studio opstart, heb je 4 panelen:
- Linksboven: ruimte voor je R-scriptbestanden
- Linksonder: de console. Hier verschijnt de uitvoer en hierin kun je ook commando’s typen
- Rechtsboven: je environment- en commandogeschiedenis. Hierin kun je zien wat voor data je in geheugen hebt en wat je allemaal hebt ingetypt
- Rechtsonder: een deelvenster met onder andere een file-browser, help-viewer en de uitvoer van grafieken
Stap voor stap introductie? → Code School
Op de site Code School kun je interactief R eens uitproberen en een gevoel krijgen hoe R datastructuren in elkaar zitten en hoe de commando’s werken. Oh, en de tutorial gebruikt een piratenverhaal. En je krijgt ook nog badges voor elk hoofdstuk dat je afmaakt. Leuker kunnen ze het haast niet maken.
Serieus beginnen? → Coursera
Elke maand start Coursera een cursus R programmeren: Coursera. Hierbij leer je de belangrijkste R kneepjes, met gerenommeerde R goeroes als docent. Je krijgt videolessen en praktijkopdrachten. Bovendien kun je je vragen op het forum kwijt. Aanrader!
Oproep aan de lezers
Gebruik jij R al voor data-analyses? Of liever een andere tool? Laat je mening horen en laat je tips achter in de comments!
Dit artikel is geschreven door analytics & optimization expert Jules Stuifbergen en op 28 januari 2015 gepubliceerd op Webanalisten.nl
Gaaf artikel Jules. Dank voor de tips!