14 dagen op proef: de Simpson’s paradox

14 dagen op proef: de Simpson’s paradox
, Aegon

Sinds een aantal maanden heeft A/B-testen binnen Aegon een vogelvlucht genomen. Er staan gemiddeld ongeveer 8 tot 10 testen te draaien, wat een enorme verbetering is ten opzichte van een jaar geleden. Ook binnen de organisatie speelt het meer dan ooit en is er meer interesse in het testen van verschillende pagina’s. Business lines komen vaker naar de marketeers toe om hun ideeën te laten testen. Zo is ook de test omhoog gekomen die ik graag wil delen.

Dit artikel is geschreven in samenwerking met Jochen Meischke, werkzaam bij Aegon als contentmanager.

Doordat ik de data niet kan delen, heb ik dummy data gebruikt. Het effect blijft hetzelfde.

Bij verzekeraars is het mogelijk om tot 14 dagen na het afsluiten van een verzekering de verzekering kosteloos stop te zetten. Met andere woorden: je mag de verzekering eigenlijk 14 dagen proberen (voor zover dat kan).

Omdat we dachten hiermee zorg weg te nemen bij consumenten, kwam hieruit de volgende hypothese voor een A/B-test: "Door het toevoegen van de tekst 'Verzeker zonder zorg: u heeft altijd 14 dagen bedenktijd' bij de call to action-button, krijgen we een hogere click-trough rate (CTR) op de button". (Omdat de aanvraagstraten verschilden, was dit de enige variabele die voor alle verschillende pagina’s overeen kwam.)

Al met al een test die redelijk standaard is en die voor drie weken werd uitgerold op vijf verschillende productpagina’s. De resultaten:

 

Control (geen tekst)

Variatie (met tekst)

Totaal

3.82% (= 203/6216)

3.27% (=221/5778)

We zien met 90 procent significantie dat de versie zonder de tekst een hogere CTR heeft dan de versie met tekst.

Simpson’s paradox

We hadden deze uitkomst van de test niet verwacht: hoe kan het dat, als je klanten bedenktijd geeft, ze minder vaak doorklikken naar de aanvraagstraat? Zorgt het toevoegen van de tekst juist voor twijfel bij onze bezoekers?

Om beter tot een conclusie te kunnen komen, bekeken we de resultaten van alle pagina’s apart:

 

Control (geen tekst)

Variatie (met tekst)

Pagina 1

3.27%

3.40%

Pagina 2

4.71%

4.98%

Pagina 3

5.25%

6.27%

Pagina 4

6.81%

5.21%

Pagina 5

0.90%

0.91%

We zien dus dat er voor vier van de vijf pagina’s geldt - ondanks dat het niet significant is - dat de variatie beter is dan de control en slechts voor één pagina de control beter werkt. Dit (hier redelijke zwakke) effect lijkt erg op de Simpson’s paradox.

De Simpson’s paradox zegt dat als een bepaalde trend voorkomt in verschillende datagroepen apart, deze trend omgekeerd kan zijn als de groepen worden samengevoegd.

Een bekend voorbeeld stamt uit 1973, toen de Universiteit van Berkeley (Californië) werd beschuldigd van seksisme: mannen zouden gemakkelijker worden toegelaten op deze prestigieuze universiteit dan vrouwen. De gegevens die werden gebruikt in het rapport:

 

Mannen

Vrouwen

Acceptatie percentage (aantal aanmeldingen)

44% (8442 aanmeldingen)

35% (4321 aanmeldingen)

Berkeley, zich van geen kwaad bewust, stelde een onderzoek in naar aanleiding van dit rapport en bekeek de acceptatie percentages voor de 6 grootste afdelingen binnen Berkeley apart:

Afdeling

Man

Vrouw

A

62% (825)

82% (108)

B

63% (560)

68% (25)

C

37% (325)

34% (593)

D

33% (417)

35% (375)

E

28% (191)

24% (393)

F

6% (373)

7% (341)

Acceptatiepercentage (aantal aanmeldingen) per afdeling

De paradox is hier overduidelijk: in totaal lijken mannen voorgetrokken te worden ten opzichte van vrouwen, maar op de 4 van de 6 grootste afdelingen blijken vrouwen vaker geaccepteerd te worden. De paradox komt hier naar boven doordat vrouwen vaker solliciteren op afdelingen waar veel mensen uitvallen. Mannen, daarentegen, solliciteren juist erg veel op afdelingen waar ze gemakkelijk worden toegelaten. Hierdoor lijkt het geaggregeerd alsof er veel meer mannen worden toegelaten, maar dit komt door het verschil in acceptatieratio bij de verschillende afdelingen.

In de praktijk

En dit is precies waar het fout kan gaan met een A/B-test op meerdere pagina’s, ondanks het feit dat je A/B-test tool het verkeer ongeveer 50/50 verdeelt. Als sommige pagina’s binnen je test veel beter converteren dan andere en bij sommige pagina’s de ene variant vaker bezocht wordt (dit gebeurde bij ons ondanks dat de tool het verkeer ongeveer 50/50 verdeeld), kan de Simpson’s paradox opkomen.

Hierom moet er altijd worden gekeken naar de individuele resultaten en niet enkel de geaggregeerde resultaten. Uiteindelijk bleek slechts één pagina voor slechte conversie te zorgen. Maar deze pagina had wel een stevig effect op het eindresultaat van de test. Omdat we uniformiteit nastreven op onze productpagina’s, laten we deze tekst voorlopig achterwege. De volgende stap is bedenken of de tekst misschien ergens anders moet komen te staan. Het is ook denkbaar dat we deze boodschap anders moeten verwoorden. Wat in ieder geval vaststaat, is dat we resultaten voortaan altijd per pagina zullen analyseren.

Credits afbeelding: Jayel Aheram, licentie: CC BY (Commercieel hergebruik, inclusief aanpassing)

Delen

0
0


Er zijn 5 reacties op dit artikel

  • Leuk verhaal Jochen,
    Welke tools gebruiken jullie bij Aegon?

    geplaatst op
  • Dank Willem! We gebruiken voornamelijk Visual Website Optimizer (VWO) van Wingify - werkt heel intuïtief en heeft een erg prettige interface.

    geplaatst op
  • Leuk artikel Jochen! En goed om te zien dat A/B testen zo'n vlucht heeft genomen :)

    geplaatst op
  • Leuk artikel en mooie (dummy) resultaten. Ik ben benieuwd naar het vervolg.

    geplaatst op
  • Hoi Jochen,

    Leuk artikel en je haalt een goed punt aan. Het kan zijn dat een variant oververtegenwoordigd is. Altijd goed om vantevoren bewust te zijn van factoren die (kunnen) meespelen. Het vooraf in gedachten doorlopen van een aantal uitkomsten wil daarin wel helpen.

    Ik stel mij dan voor dat de aanpassing bij één van die pagina's bijvoorbeeld een veel hoger omzet / winst tot gevolg heeft, dan bij anderen, omdat het een product is met hogere marge. Of dat de bron van de traffic anders is, andere typen bezoekers, etc,etc.

    Of dat er wel meer geklikt wordt, maar niet meer afgesloten.(!)

    Anyway, goede les Never settle for average (statistics)

    geplaatst op

Plaats zelf een reactie

Log in zodat je (in het vervolg) nóg sneller kunt reageren

Vul jouw naam in.
Vul jouw e-mailadres in. Vul een geldig e-mailadres in.
Vul jouw reactie in.

Herhaal de tekens die je ziet in de afbeelding hieronder


Let op: je reactie blijft voor altijd staan. We verwijderen deze dus later niet als je op zoek bent naar een nieuwe werkgever (of schoonmoeder). Reacties die beledigend zijn of zelfpromotioneel daarentegen, verwijderen we maar al te graag. Door te reageren ga je akkoord met onze voorwaarden.