Meer uit je A/B-tests halen door ‘base rate neglect’ te begrijpen
Veel organisaties voeren talloze A/B tests uit zonder sterke hypotheses, of in een context waar überhaupt weinig effecten te verwachten zijn. Dit leidt potentieel tot een lage base rate van echte winnaars, en daarmee tot onbetrouwbare testresultaten.

A/B-testen zijn een krachtig instrument om klanttevredenheid en conversies te optimaliseren. Echter, het correct interpreteren van testresultaten is vaak complexer dan op het eerste zicht lijkt. Een onderschatte valkuil is ‘base rate neglect’.
In deze blog ontdek je waarom dat zo is en hoe je door bewust te worden van de impact van base rates – de a priori kans dat een effect écht bestaat – door enkele ingrepen in je testprogramma betere resultaten en meer vertrouwen uit je A/B-testen kan halen.
Wat bedoelen we met base rates?
Base rates verwijzen naar de a priori waarschijnlijkheid dat een gebeurtenis voorkomt (m.a.w., de a piori kans op een écht effect; bijvoorbeeld dat een subtiele wijziging op je website effectief leidt tot meer conversie).
Stel dat je in je organisatie jaarlijks 200 A/B-tests uitvoert waarbij je telkens 20 ‘echte’ winnaars vindt (dat wil zeggen: als je de A/B test herhaalt, vind je consistent hetzelfde effect, het zijn geen false positives) dan is de base rate 20/200=10%.
Dit percentage speelt een cruciale rol bij het interpreteren van significante resultaten. Als je de base rate negeert – base rate neglect – loop je het risico je resultaten verkeerd te interpreteren en de betrouwbaarheid van significante resultaten te overschatten.
Het verschil met false positives
False positives zijn een direct gevolg van het gekozen significantieniveau (α) en ontstaan door toeval. Base rate neglect is een denkfout: het negeren van de a priori kans dat een effect überhaupt bestaat.
Waarom is dit belangrijk voor A/B-testen?
Laten we een voorbeeld nemen:
Je voert 200 A/B-tests uit.
Base rate: 10% (20 tests) heeft een echt effect.
Significantieniveau (α) stel je vast op 5%: Dit betekent dat 5% van de tests zonder echt effect een false positive zal zijn
Wat gebeurt er?
1. Tests met echt effect (10% van de gevallen):
– 20 tests hebben een echt effect.
– Stel dat je test voldoende power heeft (vb. 80%, bij grote steekproeven), dan identificeer je 16 van deze tests correct als significant.
2. Tests zonder effect (90% van de gevallen):
– 180 tests hebben geen effect.
– Voor 5% (9 tests) krijg je in je A/B test alsnog een winnaar (false positives)
Onderstaande tabel verduidelijkt:
“winnaar” | “geen winnaar” | Totaal aantal tests | |
Tests met echt effect | 16 | 4 | 20 |
Tests zonder effect | 9 | 171 | 180 |
Je hebt nu in totaal 25 ‘winnaars’ (16 echte + 9 false positives).
Maar de kans dat een willekeurige ‘winnaar’ echt is, blijkt slechts 64% [16/(16+9)].
Dat betekent in deze situatie dat meer dan een derde van je winnaars überhaupt geen winnaar is.
Dit betekent niet dat A/B tests niet nuttig zijn, enkel dat winnende tests vaak minder waarde hebben dan gedacht, en vervolgtests wellicht noodzakelijk.
Suggestie: je kan op dezelfde manier als hierboven (met frequentietabellen) berekenen wat het gevolg is van lagere base rates, lager significantieniveaus of lagere power op de betrouwbaarheid van je winnende tests om beter te begrijpen hoe ze de resultaten beïnvloeden. Laat je verrassen!
Wanneer is base rate neglect een probleem?
Base rate neglect wordt vooral problematisch wanneer de a priori kans op succes laag is, zoals bij:
Innovatieve hypotheses: Bij experimenten die nieuwe, creatieve ideeën testen, is de kans op succes vaak klein. Innovatie brengt immers een hoger risico op mislukkingen met zich mee.
Exploratieve A/B-testen: Veel A/B-tests worden uitgevoerd zonder duidelijke hypothese of solide onderbouwing. Bij zo’n tests is de a priori kans op een winnaar gewoon erg laag, wat resulteert in een lage base rate.
[opgepast: exploratieve tests zijn erg waardevol op voorwaarde dat het doel niet is om directe winnaars te vinden, maar om inzichten op te doen die leiden tot betere hypotheses en vervolgtesten. Het is essentieel om significante resultaten uit exploratieve testen als voorlopige aanwijzingen te zien die verdere validatie vereisen. Een pleidooi voor een ‘tweesporenaanpak’ lees je hier].
Specifieke doelgroepen: Voor sommige organisaties is het moeilijk om überhaupt een effect te vinden. Bijvoorbeeld: als consumenten al een specifiek doel hebben bij hun bezoek aan een website, zoals het kopen van een bepaald product, is het best mogelijk dat een verandering aan de pagina weinig tot geen impact heeft.
Hoe voorkom je base rate neglect?
Gelukkig zijn er praktische manieren om de impact van base rate neglect te beperken en je A/B-tests betrouwbaarder te maken:
Analyseer je historische data: Kijk naar eerdere tests: hoeveel daarvan bleken (na replicatie) écht impact te hebben? Gebruik deze base rate om de betrouwbaarheid van nieuwe significante resultaten te beoordelen.
Pas je significantieniveau aan: Een strengere α (bijvoorbeeld 1% in plaats van 5%) vermindert het aantal false positives.
Verhoog de kwaliteit van je hypotheses: Besteed meer aandacht aan kwaliteitsvolle hypotheses en stel realistische doelen. Test voornamelijk veranderingen waar je sterke aanwijzingen voor hebt dat ze een reële impact kunnen hebben. De focus op kwaliteit – zijn er sterke argumenten om een effect te verwachten? – is vaak zinvoller dan focus op kwantiteit (die de base rate van echte winnaars in je A/B testprogramma vaak verlaagt).
Repliceer je winnaars: Een test die écht een winnaar identificeert, moet consistent te repliceren zijn. Replicatie helpt om toevalstreffers te onderscheiden van echte effecten. Het is dus dé manier om toevalstreffers te elimineren.
Conclusie
Base rate neglect is geen louter theoretisch probleem. Veel organisaties voeren talloze A/B tests uit zonder sterke hypotheses, of in een context waar überhaupt weinig effecten te verwachten zijn. Dit leidt potentieel tot een lage base rate van echte winnaars, en daarmee tot onbetrouwbare testresultaten.
Het goede nieuws is dat dit niet onoverkomelijk is, en kan worden aangepakt! Het structureel implementeren van replicatie of het ontwikkelen van sterkere hypotheses kunnen de betrouwbaarheid van je resultaten sterk verhogen zonder je hele testaanpak te herzien.
Immers, het draait niet om hoeveel winnaars je vindt, maar om hoeveel échte winnaars je kunt identificeren. Alleen dan maak je écht datagedreven beslissingen die waarde toevoegen.
Meer weten over base rate neglect?
Bekijk dan zeker even onderstaande video!