A/B-testing, vergeet niet om zelf na te denken

21 mei 2012, 07:58

A/B-testing wordt gebruikt om tussen twee of meer ontwerpen de beste variant te kiezen. Het principe wordt al tijden gebruikt om onder meer reclame-uitingen via de ouderwetse post te testen. De laatste jaren wint de testmethode ook op het web aan populariteit. Waar de kosten van de eerste online A/B-testen opliepen tot wel 100.000 euro per test, is het dankzij de opkomst van goedkope tools nu voor elke website toegankelijk. Daarnaast heeft het als voordeel dat een gebruiker niet doorheeft dat hij in een test zit en dus zijn gedrag niet aanpast. Verder nemen deze tools een groot deel van het werk uit handen. Ze berekenen statistische significantie en bepalen in veel gevallen zelfs de winnende variant. Het gemak waarmee deze tests kunnen worden opgezet zorgt er niet alleen voor dat de methode steeds vaker verkeerd wordt ingezet, maar ook dat de resultaten snel verkeerd worden geïnterpreteerd.

Dit artikel is geschreven door mijn collega's bij Onetomarket Astrid Badenbroek en Rolf Broer.

Hypothese

Een A/B-test kan alleen worden ingezet bij projecten waar slechts één KPI belangrijk is. Daarnaast moet dit een kwantitatieve en meetbare actie zijn. Voorbeelden van dergelijke acties zijn:

  • Meer omzet op een e-commerce site

  • Aantal gemaakte hotelreserveringen

  • Aantal ingevulde contactformulieren

Omdat A/B-testen gebruikmaken van statistische toetsingstheorie, maak je gebruik van hypotheses die je vervolgens toetst. Doordat je slechts beperkt zicht hebt op de data zijn de hypotheses die je stelt voor een A/B-test vrij simplistisch. Een nulhypothese gaat er vanuit dat de variant geen effect heeft op de KPI. Bijvoorbeeld:

“De aanpassingen in de controlversie hebben geen invloed op de gemiddelde orderwaarde”

De alternatieve hypothese gaat er vanuit dat de aanpassingen wel degelijk invloed hebben. Bijvoorbeeld:

“De aanpassingen in de controlversie hebben wel degelijk invloed op de gemiddelde orderwaarde”

Vervolgens verwerp je, aan de hand van de testresultaten, de nulhypothese en kies je ervoor om de alternatieve hypothese aan te nemen of om de nulhypothese te behouden.

Het probleem is dat veel websites zich niet beperken tot een van deze doelen. Zo zijn branding en invloeden op de offline kanalen lastig te meten. Door significante resultaten van een A/B-test wordt vaak zonder verder onderzoek besloten om een bepaalde variant te gaan gebruiken. “Want de variant was toch beter en het resultaat was toch significant?”

Wat was significantie ook alweer?

Hoe mooi statistische significantie tijdens een test ook is, in het geval van een A/B-test is het gevaarlijk om enkel en alleen hierop je conclusie te baseren. Maar hoe zat het ook alweer?

sig•ni•fi•cant bn, bw (statistiek) niet aan toeval toe te schrijven en dus betekenisvol

Significantie is enkel een maatstaf om aan te geven met hoeveel procent zekerheid we kunnen uitsluiten dat de uitkomst van onze test toe te schrijven is aan het kanselement. Bij A/B-testen wordt hierbij vaak een alfa-niveau van 0.05 aangehouden. Dit wil zeggen dat er genoegen wordt genomen met een significantieniveau van 95 procent, oftewel bij een dergelijk significantieniveau wordt de alternatieve hypothese aangenomen. Houd er rekening mee dat dit ook betekent dat van één op de twintig tests de resultaten door toeval zijn ontstaan.

Daarnaast is het goed om te beseffen dat kleine testen, met slechts een klein verschil in de varianten (bijvoorbeeld enkel een aangepaste kleur of plaats van een knop), in het begin misschien veel verschil in de resultaten vertonen, maar dat de lijnen na verloop van tijd ‘dichter naar elkaar toe kruipen’. Met andere woorden, uiteindelijk is de kans klein dat men daadwerkelijk (meer) koopt vanwege een andere kleur of locatie van de knop. Omdat de creatie van varianten meestal ook geld kost, is het wellicht goed om te overwegen meteen een grote test uit te voeren, met varianten die veel van elkaar verschillen, in plaats van een hele hoop kleine testen. Het nadeel is dan wel dat je minder goed weet welke wijzigingen het resultaat precies hebben veroorzaakt, maar zelfs met kleine A/B-testen is niet altijd de precieze oorzaak van de resultaten te achterhalen. Op den duur zal je, na het maken van de grote slagen, wel klein moeten gaan testen. Houd er echter rekening mee dat de resultaten minder snel significant zullen zijn.

Heb je een significant verschil bereikt tijdens je test? Mooi! Dan zijn de waardes die je bij je KPI’s ziet waarschijnlijk geen toeval. Maar nu?

Is de winnaar ook echt beter?

Vanuit de optiek van een tool wordt een variant waarvan de resultaten significant beter zijn, terecht als winnaar aangemerkt. Als onderzoeker moet je zelf ook de data die je hebt verzameld bestuderen. Zorg dat je de data van je test kan exporteren en zoek bijvoorbeeld naar uitschieters als je je richt op de gemiddelde orderwaarde.

Daarnaast moet je jezelf altijd afvragen waarom een bepaalde variant beter werkt en ook die data meenemen in je keuze. Het probleem is dat je in het geval van A/B-tests enkel je testresultaten en analytics tools hebt. Eigenlijk wil je graag een gebruiker observeren en vragen om bepaalde acties te verklaren. Natuurlijk zal je je varianten ook niet uit de lucht grijpen en deze baseren op de tien usability-heuristieken van Nielsen, de gestaltprincipes en best practices. De meeste conclusies kun je hierop baseren, maar verder blijven de resultaten met A/B-testen toch een beetje een blackbox.

Verder moet je altijd kijken naar het effect van de test op de volledige site. Een A/B-test kan uitwijzen dat een bepaald product beter verkocht wordt als deze prominent gepromoot wordt. Maar wat doet de extra verkoop van dit product met de totale omzet van de site? Gaat deze promotie niet ten koste van de verkoop van andere producten? En wat gebeurt er met de gemiddelde orderwaarde?

Take-aways

Hoewel A/B-testing veel voordelen heeft, is het beter om verschillende methoden te combineren tijdens het testen. Het kan goedkoop inzichten bieden, maar kan ook de scope van je conversieoptimalisatie verkleinen. Hoewel A/B-testen steeds goedkoper is, kúnnen de kosten van de creatie van verschillende varianten behoorlijk oplopen. Verwachten we ook dan nog dat de test voldoende oplevert om dit te rechtvaardigen? Kwalitatief onderzoek levert vaak sneller een beter inzicht op. Bovendien kunnen op basis van kwalitatief onderzoek meer gefundeerde keuzes worden gemaakt. Zet je wel een A/B-test in als tool, laat dan niet alleen de tool voor je beslissen, maar kijk zelf ook kritisch naar de data en neem het enkel mee als onderdeel van je overweging om voor een bepaalde variant te kiezen.

Jordy Noll is een freelance SEO specialist, na ruim 10 jaar SEO gedaan te hebben bij onder andere adidas Group en wehkamp. Hij specialiseert zich hierbij op eCommerce SEO, international SEO en het vervullen van interim SEO posities bij bedrijven als GAMMA, PostNL en Greenchoice.

Categorie
Tags

3 Reacties

    Rick Leijten

    Leuk artikel, echter ben ik zeer benieuwd welke “goedkope tools” je bedoeld :)..


    22 mei 2012 om 07:55

Marketingfacts. Elke dag vers. Mis niks!