• Usability & design
    wordt gesponsord door

De meeste A/B-testen leveren onbetrouwbare resultaten op

Video-interview met Ton Wesseling, online optimalisatie-specialist

De meeste A/B-testen leveren onbetrouwbare resultaten op

Stel: je verandert iets op je website. Je zet bijvoorbeeld een nieuwe tekst op je verkooppagina. Hoe weet je dan of dat een verbetering is? Daar kom je achter met een A/B-test. Je meet of de nieuwe variant van de pagina meer verkoop oplevert dan het origineel. Binnen de kortste keren zie je in een A/B-test welke variant heeft gewonnen. Maar: in zeker 50 procent van de gevallen worden de verkeerde conclusies getrokken, waarschuwde Ton Wesseling in zijn keynote op het congres Digital Data Tips Tuesday. Ik vroeg hem wat er allemaal fout kan gaan. 

Ton Wesseling is initiator van Online Dialogue en Webanalisten.nl, heeft 15 jaar ervaring met online marketing-optimalisatie en heeft een maandelijkse column in Emerce over online conversie.

Als je wilt beginnen met A/B-testen op je website, wat zouden dan je eerste stappen moeten zijn?
De eerste stap is goed nadenken of je er klaar voor bent. Je hebt een bepaalde volwassenheid nodig, een bepaald aantal bezoekers, een bepaald business-model, om hiermee aan de gang te gaan. Als je dat niet hebt: vooral niet mee beginnen.

Hoeveel bezoekers moet je dan hebben?
Dat hangt af van je conversiepercentage, het percentage van je websitebezoekers dat succesvol iets voltooit of koopt op je website. Denk aan een paar honderd conversies per week. Stel dat 5 procent van je bezoekers iets koopt, dan heb je twintig keer zoveel bezoekers nodig, dus 4.000 tot 5.000 bezoekers per week. 

Daaronder kun je ook testen op iets anders dan conversie. Je kunt bijvoorbeeld testen op doorkliks, maar doe dat vooral met advertenties en niet op je eigen website. Want uiteindelijk moet je met je website gewoon geld verdienen en wil je geen bezoekers die lukraak een beetje rondklikken.

Dus als je een MKB-bedrijf bent en je hebt niet die aantallen conversies, dan moet je niet met A/B-testen beginnen?
A/B-testen is geschikt voor succesvolle online concepten. Als je onder een paar honderd aankopen per week zit, dan heb je gewoon te weinig data om goede uitspraken te doen en dan ga je heel vaak foute conclusies trekken. Het is een stukje kansberekening: je gaat proberen om te vinden of iets werkt en met heel weinig verkopen kun je daar gewoon foute keuzes in maken. Dus dat is niet aan te raden.

Maar: als je een bedrijf bent met minder bezoekers, kun je natuurlijk wel gaan toetsen wat er past bij jouw bezoekers. Door bijvoorbeeld met AdWords- of Facebook-advertenties gewoon bezoekers in te kopen. Want daar zitten grote aantallen, daar kun je jouw uiting onder aandacht brengen bij mensen.

Bijvoorbeeld 2 verschillende uitingen onder de aandacht brengen bij bezoekers van Facebook, en dan kijken welke het meeste respons heeft. De winnende uiting gebruik je dan op je website.

Ik wil niet zeggen dat je totaal niet moet A/B-testen: het is een geweldig marktonderzoeksmiddel om te begrijpen wat je bezoekers echt doen op die iPad, achter die laptop of op die smartphone. Maar op een website met weinig verkopen heeft dat geen zin. 

Is een usability-test met een klein groepje proefpersonen een alternatief voor websites die niet zo heel veel bezoekers of conversies hebben?
Usability-testen zie ik helaas vaak verkeerd uitgevoerd worden. Bijvoorbeeld proefpersonen vragen om hardop na te denken over wat ze doen op de website. Op het moment dat ze hardop moeten nadenken, dan activeren ze wat we in de psychologie noemen: systeem 2. Daniel Kahneman schrijft daarover in zijn boek 'Ons feilbare denken'. Systeem 2 is je ratio: je gaat beredeneren waarom je iets doet.

Maar normaal, als je achter je laptop zit, dan is systeem 2 lekker aan het slapen. Het is systeem 1, je emotie, dat je laat rondklikken. Je denkt helemaal niet na over waarom je klikt, je klikt gewoon. Bij hardop denken vraag je aan systeem 2 - wat eigenlijk alibi’s verzint - waarom je iets doet op die website. Daar conclusies uit trekken is gevaarlijk. 

Je moet vooral niet luisteren naar wat mensen zeggen?
Nee, behalve als je usability-blunders wilt ontdekken. Als mensen zeggen: “Hee, ik snap hier niks van, ik weet niet waar ik op moet klikken”, dan is dat wel interessant. 

Wat vind je van usability-testen waarin proefpersonen een taak moeten uitvoeren, zonder dat ze hardop hoeven te denken?
Dat werkt al een stuk beter. Maar dan nog is het een laboratoriumsituatie. Ik ben een grote fan van A/B-testen, want mensen hebben dan niet in de gaten dat ze worden betest, je onderzoekt het echte gedrag. ’s Ochtends achter de keukentafel, in pyjama, is men lekker aan het rondklikken en zit toevallig in een variant, dus dat geeft altijd de beste uitkomsten.

Maar als je iets met die testen doet, dan niet met hardop denken. Ga observeren wat mensen doen, onderbreek ze vooral niet en laat ze maar lekker hun gang gaan. Neem het op en kijk het achteraf terug. 

Veel ondernemers kijken naar hun bounce-percentage: het percentage bezoekers dat weggaat zonder ergens op te klikken. Heeft dat zin? 
Het ligt eraan in wat voor business je zit. Als je heel veel artikelen publiceert, dan is het logisch dat mensen weggaan zonder te klikken. Ze komen op de webpagina en blijven misschien wel 3 minuten hangen. Want ze lezen het artikel en haken daarna weer af. Dat is heel normaal, gezond gedrag, want ze kwamen om te lezen en dat is gelukt. Dus als je je business haalt uit content marketing, het publiceren van artikelen op internet, zet dan een stukje meetcode op je site en kijk hoe lang men op de pagina blijft, ook al klikt men niks aan.

Verkoop je puur producten en mensen landen op je productpagina en doen daar helemaal niks - je hebt bijvoorbeeld een bouncepercentage van 90 procent, dan is dat toch echt wel een issue. Dan past jouw advertentie-uiting niet bij wat men zoekt, of spreekt de advertentie-uiting wel aan maar is jouw pagina zo slecht dat men het niet snapt.

20 fouten met A/B-testen

Ton gaf op Digital Data Tips Tuesday een presentatie over 20 fouten die bedrijven veelal maken met A/B-testen. Fouten die je noemde, waren onder andere:

  • A/B-testen te vroeg stoppen - bijvoorbeeld bij 90% significantie voor 1 van de varianten - waardoor je de verkeerde winnaar aanwijst
  • A/B-testen te lang door laten lopen, waardoor dezelfde bezoeker in beide varianten van de A/B-test terecht kan komen doordat hij zijn cookies heeft verwijderd. Want zo'n 10% van de bezoekers verwijdert binnen 2 weken hun cookies. 
  • Vervuilde resultaten als dezelfde bezoeker in verschillende varianten van je A/B-test terechtkomt doordat hij je website bezoekt met zijn smartphone, zijn iPad en zijn laptop. 
  • Varianten die trager zijn dan het origineel doordat ze een stukje extra code bevatten van de test-tool - en daardoor minder converteren en dus de test verliezen

Er zijn dus heel veel dingen die mis kunnen gaan. Zou je als bedrijf überhaupt zonder begeleiding door experts moeten A/B-testen?
Ik zou een A/B-test altijd hertesten. Als er een winnaar uit komt, omdat de tool zegt dat hij een significant verschil heeft gevonden en een winnaar aanwijst met zoveel procent meer verkoop of meer kliks, doe dan altijd een hertest. Want het kan zijn dat het op toeval berust. Het kan een verkeerde meting zijn, het kan een verkeerde groep zijn.

Moet je elke A/B-test dus 2 keer doen?
Als je echt iets vindt wat je wilt gaan implementeren op je website of in je communicatie, of in folders of reclames: altijd hertesten, dan weet je het zeker.

Maar dat doet niemand.
Dat doen helaas veel te weinig bedrijven. Maar kijk naar de medische wereld, waar ook heel veel wordt ge-A/B-test. En naar de wetenschap in het algemeen, daar mag je een onderzoeksresultaat pas publiceren als het minimaal vier, vijf, zes, zeven keer is getest.

De meeste A/B-testen leveren onbetrouwbare resultaten op. Ik durf zelfs te beweren dat meer dan 50% van alle case-studies met A/B-resultaten die je kunt vinden op internet, eigenlijk berust op onwaarheden.

Dat zijn schokkende percentages. Wat moeten we daaruit concluderen?
Dat we eigenlijk nog in de kinderschoenen staan in dit vakgebied. Dat veel mensen het nog niet snappen. Het is een combinatie van statistiek, analytics, techniek, psychologie om goede hypotheses te maken. Daar heb je experts voor nodig. Die moeten samenwerken, dus daar heb je eigenlijk alweer een team voor nodig.

Op dit moment is het voorbehouden aan wat grotere bedrijven en die zijn er eigenlijk net mee aan het spelen, die zijn een paar jaar bezig. En voordat je expert bent, moet je eerst alle fouten maken. De fouten die ik presenteer, die weet ik alleen maar omdat ik ze zelf ooit gemaakt heb.

Bijvoorbeeld als ik zag dat we door het live zetten van een winnende variant veel meer hadden moeten verdienen, terwijl we in werkelijkheid helemaal niet meer verdienden. Dan ga je graven en zoeken en praten en dan wordt de puzzel stukje bij beetje duidelijker. Je komt erachter dat je het helemaal fout hebt gedaan. 

Tools om te A/B-testen zijn zo simpel en goedkoop geworden dat veel ondernemers ermee zijn begonnen. Maar dat is eigenlijk dus meestal geen goed idee?
Nee, als je niet van tevoren een vaste testperiode kiest en het onderzoek echt goed aanpakt, dan weet je bij voorbaat dat de kans op toeval heel groot is. Als je statistisch gezien niet snapt wat je aan het doen bent, dan maak je onvermijdelijk fouten en dan zul je als je de winnaar van je test implementeert, geen conversiestijging zien.

Als je je bedrijf begint, dan ben je op zoek naar het juiste businessmodel, het juiste product, het gat in de markt. Je gaat zoeken naar de sweet spot. Dat doe je door met klanten te praten, en door naar je onderbuik te luisteren. En op een gegeven moment heb je iets te pakken. Je kunt dat nieuwe businessmodel dan A/B-testen, door gewoon fake websites op te richten en daar traffic op in te kopen vanuit allerlei advertentiekanalen om te bekijken welke de meeste animo oplevert.

Daarna - als je eenmaal het juiste businessmodel hebt - ga je eerst groeien. De eerste medewerkers komen binnen. Je gaat dan meer naar online data kijken: hoe gaat het, stijgen we nog, krijgen we wel terugkerende klanten? Dan komt het moment eraan en ben je toe aan je eerste A/B-test. Mits je genoeg bezoekers en conversies hebt.

Als je ziet dat je kunt groeien, dan is het tijd om echt zwaar datagedreven te worden en ook flink hard te gaan groeien. Want voor je het weet is er een concurrent die meer datagedreven is en die haalt je gewoon links en rechts in.

Meta Groot Antink stelde een hele leuke vraag via Twitter: hoe sluit je bij A/B-testen invloeden uit van bijvoorbeeld barbecue-weer, WK-voetbalwedstrijden of andere pieken, waar je zelf niet van afweet?
Die kun je niet uitsluiten. Het kan gebeuren dat het Nederlands elftal speelt, en dat men opeens gaat veel meer gaat kopen, want men is heel erg gelukkig. Als je dan een variant hebt die oranje gekleurd is, heb je best kans dat die gaat winnen. Je moet daarom altijd hertesten als je iets echt wilt doorvoeren in je bedrijf. Maar wel na het WK voetbal.

Welmoet Babeliowsky vraagt: hoe zorg je ervoor dat de resultaten van een A/B-test niet op toeval berusten?
Door je statistiek op orde te hebben. In ieder geval een vaste testperiode kiezen en van te voren goed nadenken, ik heb sowieso een paar honderd verkopen nodig, ik heb een paar duizend bezoekers nodig, per variant. Heb ik die wel in 2 weken? Of in 3 weken? Veel langer wil je eigenlijk niet testen, want dan loop je tegen allerlei andere problemen aan.

Dus een vaste periode kiezen, en als die periode voorbij is kijk je naar de resultaten. Is een van de varianten beter, of niet? Zo ja, dan hertesten om zeker te weten of het geen toeval is. Want de resulaten van A/B-testen zijn helaas vaak gewoon toeval.

Niels Schouman en Roald Tichelaar vragen: hoe weet je of je testperiode lang genoeg is geweest en of je conclusies kunt gaan trekken?
Dat is een gevaarlijke manier om een vraag te stellen. Want dat impliceert dat je wil wachten tot iets significant wordt. Terwijl je altijd van tevoren de lengte van je testperiode moet bepalen.

En als het in die periode nou niet significant wordt?
Dan ben je niet in staat gebleken om met de nieuwe variant de oude situatie te verbeteren. Dus blijft de oude situatie gewoon live staan. 

Hoe bepaal je hoe lang zo’n periode moet zijn?
Door van tevoren te bekijken hoeveel verkopen er uit die pagina komen en hoeveel bezoek er op zit. Als dat bijvoorbeeld 150 verkopen per week zijn, dus 450 in 3 weken, dan kom je in aantallen die een beetje in de buurt komen. Dus dan ga je 3 weken testen, in een A- en een B-variant, een origineel en een nieuwe pagina. Dan heb je 250 verkopen per variant, met bepaalde zekerheid begint dat in de buurt te komen.

Vervolgens kijk je of de hele aankoopcyclus van klanten ook binnen die periode valt. Want als het bij jouw product 3 maanden kost voordat iemand overgaat van oriënteren naar verkoop, zoals bij een hypotheek, dan is A/B-testen niet zo geschikt. Maar als je een koopcyclus hebt die een dag of 5 duurt, dan zit je safe. Met 3 weken testen kun je dan aardig aan de gang. Maar je moet het altijd van tevoren uitrekenen, je bepaalt gewoon van tevoren hoe lang je test duurt. Na afloop analyseer je het en dan heb je je antwoord. 

Linda Lebesque vraagt: welke tools moet je gebruiken als ondernemer? 
Als je eenmaal toe bent aan A/B-testen moet je vooral tools gebruiken, want dan heb je nog niet de capaciteit om ze zelf te gaan bouwen zoals de grote bedrijven doen. Er zijn heel veel A/B-testtools te krijgen, Optimizely, Visual Website Optimizer, Convert, die allemaal een soort van virtuele laag over je website heen leggen, waarin je alles kunt aanpassen om varianten te creëren.

Google Analytics Contentexperimenten werkt iets anders, dat is een soort redirect-tool: je bouwt in je content management systeem een nieuwe pagina, en je stuurt je bezoekers naar de ene pagina of de andere pagina. Dat is ook een oplossing, maar het is mooier om de pagina aan te passen. 

Vertel eens iets over Conversion Hotel op Texel, het event dat jullie organiseren op 21, 22 en 23 november 2014?
We willen het kennisniveau in Nederland verder omhoog krijgen op het gebied van conversie. Er komen 8 tot 10 goede, internationale sprekers naar Nederland om te laten zien wat zij in hun dagelijkse praktijk doen, waar ze tegenaan lopen, welke fouten ze allemaal gemaakt hebben. In 3 dagen tijd: vrijdag tot en met zondag.

Er is ook veel tijd om zelf sessies te plannen, een soort un-conference. Dan is er geen programma, maar wel ruimtes waar je kunt gaan zitten en gewoon jouw kennis kunt delen of jouw probleem op tafel leggen om met andere mensen te spiegelen. Dus dat wordt 3 dagen lang opsluiten op Texel en leren wat er met conversie eigenlijk allemaal kan. En met veel inspiratie dan weer terug naar huis.

Is het alleen voor grote bedrijven of ook voor ondernemers?
Ook voor ondernemers, als ze op het punt zijn gekomen dat ze datagedreven willen worden. Die raad ik zeker aan om langs te komen, dan kunnen ze de rest van het jaar stappen gaan maken.

Credits afbeelding: Addison Berry, licentie: CC BY (Commercieel hergebruik, inclusief aanpassing)

Delen

0
0


Er zijn 2 reacties op dit artikel

  • Hij geeft aan dat het alleen werkt als je 5000 bezoekers per week hebt. Maar voor kleinere websites kan het toch ook? Je moet alleen je test periode verlengen tot het moment dat je steekproef groot genoeg om te zeggen dat je uitkomt statistisch significant is?

    Je kan met 200 bezoekers per dag niet na 2 dagen zeggen dat iets beter is. Maar na een maand wordt het toch wel redelijk duidelijk?

    geplaatst op
  • Hi Johan,

    Dank voor je vraag. Het is een lange video en een lange tekst die Aartjan heeft uitgewerkt (waarvoor dank!), maar de antwoorden zitten in de tekst. Misschien dat mijn slides van #ddtt met 20 redenen waarom jouw A/B-test analyse niet klopt een mooi beknopt overzicht geven? Vanaf slide 19: http://www.slideshare.net/onlinedialogue/keynote-digital-data-tips-tuesday-amsterdam-june-24th-2014-abtesting-analytics-errors/19

    De titel van dit artikel kan je ook op een verkeerd been hebben gezet: "De meeste A/B-testen leveren onbetrouwbare resultaten op" is niet waar. Alle A/B-testen leveren betrouwbare resultaten op. Het probleem is juist dat: de meeste gehanteerde A/B-test methoden en analyses onbetrouwbare resultaten opleveren.

    Samengevat het antwoord op jouw vraag: je test vooraf met een vastgestelde periode - minimaal 1 aankoopcyclus en 1 gedragscyclus (vaak een week) - maximaal 3 weken. Op basis van genoeg data om een positieve verhouding te hebben in de kans om een valse winnaar te zien en de kans om een echte winnaar niet te zien.

    - 2 dagen testen is dus nagenoeg altijd te kort, ook al heb je heel veel bezoek
    - 4 weken is vaak te lang, je onderzoeksgroepen zullen dan al te veel met elkaar vermengd zijn (cookie problemen)

    Wachten totdat een test statistisch significant is, door of te stoppen als dat zo is of door te verlengen wanneer de test nog niet significant is..... Dat is de allergrootste doodzonde binnen A/B-testen.

    In een A/A test (zelfde pagina tegen dezelfde pagina) op 90% significantie wordt de uitkomst in 77% van de keren wel eens significant... Terwijl de resultaten onderling niet verschillen. Bij 95% significantie nog steeds in 53,1% van alle testen...

    Deze cijfers komen uit de simulatie van Mats Stafseng Einarsen van booking.com: http://www.einarsen.no/is-your-ab-testing-effort-just-chasing-statistical-ghosts/

    Dus... voordat je begint met testen: gebruik een significantie en power rekentool als deze: http://abtestguide.com/calc/ en zorg dat je begrijpt wat de waarden die daar staan betekenen. Vertrouw in ieder geval niet op je A/B-test tool die opeens meld dat iets significant is. Dat is niet hoe je A/B-testen hoort uit te voeren!

    geplaatst op

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.