Iedereen die testen inzet voor conversie-optimalisatie kent het probleem van de positieve test met lage statistische significantie: 10 procent conversiestijging en 80 procent significantie. De stijging is veelbelovend, maar mag je de winnaar nu doorvoeren of niet? Een controversieel probleem dat vaak leidt tot lange discussies. Sommige online marketeers staren zich blind op significantie: “Onder de 95 procent accepteren we geen winnaar”. Naar mijn mening doen deze marketeers zichzelf en hun organisatie tekort. Ze verliezen veel tijd omdat ze vaak te lang doortesten.
Neem het bovenstaande voorbeeld van 10 procent conversiestijging. Stel dat het gaat om een eenvoudige testvariant, bijvoorbeeld het prominenter tonen van de unique selling points op iedere productpagina. Doorvoeren van zo’n soort testvariant op iedere pagina zou misschien 1.000 euro kosten. Verder nemen we aan dat de onderneming 1 miljoen euro online jaaromzet genereert met een marge van 30 procent.
In dat geval resulteert 10 procent conversiestijging in een extra jaarwinst van 30.000 euro. Een investering van 1.000 euro heeft dus een verwachte opbrengst van 30.000 euro. Dat is een ROI van 30. De terugverdientijd van de investering is 1,7 weken (52 weken/30).
Als je er zo naar kijkt, is significantie ineens geen issue. Zelfs als je heel conservatief naar deze testuitkomst kijkt en de lift en ROI deelt door 3, dan nog blijft het een aantrekkelijke investering. Vrijwel iedereen zal op basis van deze informatie besluiten de winnaar te accepteren. Wat je hier ziet, is dat een positieve business case op basis van testresultaten de significantie onzinnig maakt.
Of niet?
Nee, dan moet je nog steeds naar significantie kijken. Je moet altijd naar significantie kijken. Maar je moet het niet belangrijker maken dan het is.
Wat is significantie?
Significantie is een term uit de statistiek. Het verwijst naar het percentage toeval dat ten grondslag ligt aan je waarneming. In A/B-testtools komt het terug in de rapportage van de testresultaten. Het heet dan meestal iets als 'chance to beat'. Dat getal is 100 procent min de significantie van het experiment. In het bovenstaande voorbeeld betekent 80 procent significantie dat er 20 procent kans bestaat dat de waargenomen conversiestijging op toeval berust. 20 procent is niet volkomen toevallig. Dat is het geval bij een kans van 50 procent, zoiets als de kans op kop of munt.
Voor wetenschap is significantie essentieel
Wetenschappers hebben, afhankelijk van hun discipline, bepaalde doelen voor significantie in hun onderzoek. Voor sociale wetenschappen en economie is 95 procent veelvoorkomend. Dat betekent dat 1 op de 20 geconstateerde effecten op toeval mag berusten.
Voor de medische wetenschap ligt de eis voor significantie veel hoger. Je moet er niet aan denken dat het effect van medicijnen op toeval berust of dat schadelijke effecten nog voor 5 procent mogelijk zijn. Daar geldt dus vaak een significantie-eis van 99,99 procent of soms zelfs 99,999999 procent. Dit laatste percentage is het zogenaamde 5-sigmaniveau en komt neer op een kans op toeval van een op een miljoen.
Voor de online marketeer is significantie een middel en geen doel
Significantie is voor wetenschappers essentieel, omdat ze hun resultaten niet kunnen publiceren als hun uitkomsten niet significant zijn. Daarmee is significantie voor wetenschappers een doel op zich. Voor online marketeers ligt dat anders. Die zetten online experimenten in om een keuze te onderbouwen. Kies ik A, B of C?
Daarvoor moet een marketeer eerst weten welke variant het beste scoort. Vervolgens representeert significantie de kans dat de waargenomen uitkomst zich daadwerkelijk voordoet. Als de kans acceptabel is, kan de marketeer een keuze maken. Voor de marketeer is significantie daarmee een middel op basis waarvan hij verschillende keuze-opties evalueert. De eis voor significantie kan dan minder streng zijn.
Hoge significantie kost tijd
Hoge significantie komt met een prijs. Het kost vooral tijd en daarmee gaat het ten koste van het aantal testen dat je uitvoert. Vergeleken met 95 procent significantie is maar 45 tot 60 procent van de traffic nodig om 80 procent significantie te halen. Met andere woorden, in de tijd die je nodig hebt om 10 testen op 95 procent betrouwbaarheid te doen, kun je wel 20 testen doen op een betrouwbaarheidsniveau van 80 procent. Mocht je dit willen narekenen, gebruik dan een van de vele online steekproefomvang-calculators, zoals deze van Optimizely.
Voor de gevallen waarin snelheid van besluitvorming belangrijker is dan betrouwbaarheid, kun je daarom beter werken met lagere significantie.
Simpele richtlijnen voor significantie in relatie tot A/B-testen
Hieronder geef ik een paar praktische richtlijnen voor online marketeers voor het hanteren van significantie bij het uitvoeren van A/B-testen.
- Streef naar een hoge significantie van 95 procent wanneer de belangen groot zijn. Als je een test uitvoert waarvan het doorvoeren van de winnaar gepaard zal gaan met aanzienlijke kosten, is zekerheid belangrijker dan snelheid. Dit is bijvoorbeeld het geval bij het testen van grote aanpassingen aan de website, zoals bij herschrijven van content of het maken van nieuwe afbeeldingen. Voordat je alle productfoto’s gaat wijzigen, is het belangrijk dat je 'zeker' weet dat de investering een acceptabele terugverdientijd heeft. Omdat zekerheid hier zo belangrijk is, bevelen wij zelfs aan om dergelijke testen een of twee maal te herhalen voordat je de uitkomst als waarheid accepteert.
- Wees soepel met significantie en accepteer conclusies vanaf 80 procent significantie als snelheid van belang is. Dit is bijvoorbeeld het geval bij het testen van banners, e-mails, landingpagina’s en advertentieteksten. Hierbij wil je snel weten wat werkt en wat niet. Vaak heb je de tijd niet om te lang te testen. Hier heeft de test de functie de besluitvorming te verdiepen en te versnellen.
- Accepteer 80 procent significantie bij testen op goedkope aanpassingen aan de website. Denk hierbij bijvoorbeeld aan testen op paginatitels, call to actions en aanpassingen aan formulieren. Hierbij is snelheid natuurlijk van belang. Je wilt liever 20 dan 10 verbeteringen doorvoeren in dezelfde tijd. Maar hier is ook het risico van een verkeerde investering vrij beperkt. In het ergste geval besteed je wat tijd en een beperkt budget en heeft het geen effect.
Conclusie
Significantie is een belangrijke graadmeter voor de betrouwbaarheid van de uitkomsten van een A/B-test. Als zekerheid belangrijk is voor de besluiten die je gaat nemen op basis van een A/B-test, is het zinnig om 95 procent significantie na te streven. Als een verkeerde keuze geringe risico’s met zich meebrengt, is het onzinnig om te streven naar hoge significantie. Dan verlies je alleen maar tijd en dat is zonde.