A/A-testning

Vad är A/A-testning?

A/A-testning använder A/B-testning för att testa två identiska versioner av en experimentbaslinje mot varandra. Det typiska syftet med att köra ett A/A-kalibreringstest är att validera din försöksuppställning. Mer specifikt är ett A/A-test ett förfarande för datasäkerhet/kvalitetssäkring för att utvärdera genomförandet av alla dina experimentjämförelser. Vi rekommenderar att du utför A/A-kalibreringstester med jämna mellanrum. Den allmänna tumregeln är att utföra dem kvartalsvis. I de flesta fall bör majoriteten av resultaten från dina A/A-kalibreringstester visa att konverteringsförbättringen mellan de identiska baslinjesidorna är statistiskt osäker.

Varför testa identiska sidor?

I vissa fall kanske du vill övervaka konverteringen på sidan där du kör A/A-testet för att spåra antalet konverteringar och fastställa baslinjens konverteringsfrekvens innan du påbörjar ett A/B- eller multivariat-test.

I de flesta andra fall är A/A-testet en metod för att dubbelkontrollera effektiviteten och noggrannheten i A/B-testprogramvaran. Du bör kontrollera om programvaran rapporterar att det finns en statistiskt signifikant (>95% statistisk signifikans) skillnad mellan kontroll och variation. Om programvaran rapporterar att det finns en statistiskt signifikant skillnad är det ett problem. Du bör kontrollera att programvaran är korrekt implementerad på din webbplats eller i din mobilapp.

Data från kalibreringstest kan också ge insikt i ditt experimentprogram. Att använda ett A/A-kalibreringstest är ett bra sätt att mäta din analysuppsättning. Genom att köra samma variant två gånger i samma experiment kan du få ett riktmärke KPI att spåra mot. Testdata bör visa vad din genomsnittliga konverteringsfrekvens till beat är.

Saker att tänka på med A/A-testning:

När du kör ett A/A-test är det viktigt att notera att det alltid är en möjlighet att hitta en skillnad i konverteringsfrekvens mellan identiska baslinjesidor. Den statistiska signifikansen av dina resultat är en sannolikhet, inte en säkerhet. Detta är inte nödvändigtvis en dålig reflektion över A/B-testplattformen, eftersom det alltid finns ett element av slumpmässighet när det gäller testning.

När du kör ett A/B-test bör du komma ihåg att den statistiska signifikansen för dina resultat är en sannolikhet, inte en säkerhet. Även en statistisk signifikansnivå på 95 % innebär en chans på 1 av 20 att de resultat du ser beror på slumpen. I de flesta fall bör ditt A/A-test rapportera att konverteringsförbättringen mellan kontrollen och variationen är statistiskt inkonklusiv - eftersom den underliggande sanningen är att det inte finns någon att hitta.

Hur påverkar A/A-testning konverteringsgraden?

Eftersom ingen faktisk förändring görs av de olika versionerna i experimentet bör det inte påverka konverteringsgraden. Om majoriteten av dina testresultat för A/A-kalibrering visar en (betydande) skillnad i konverteringsfrekvenser kan det tyda på ett problem med din experimentimplementering, till exempel att du kontrollerar alla inriktningsregler och dokumentation. Se till att kontrollera alla målsättningsregler och all dokumentation för att förhindra falska positiva resultat.

Ska du lägga till en andra baslinje i ett A/B-test och därmed skapa ett A/A/B-test?

Och hur är det med duplicerade baslinjer och duplicerade testvariationer, som ett A/B/A/B-test? Det här är vanliga frågor. Ett sätt att validera ett A/B-test kan vara att lägga till ett duplikat av A-varianten i experimentet.

Men nej. Du ska aldrig någonsin göra detta. A/A-kalibreringstester måste finnas i sitt eget separata utrymme, sitt eget experiment. Man bör bedöma en stor mängd A/A-kalibreringstestresultat i stället för att bedöma prestandan i ett enda experiment där man testar en enda baslinje mot en annan baslinje.

När man kombinerar flera baslinjer med testvariationer straffar man i onödan prestandan hos testvariationerna. Annorlunda uttryckt kommer flera baslinjer kombinerade med testvariationer att kannibalisera experimentresultaten.

För ett A/B/A/B-test ger det inte en säkrare eller mer säker upplevelse att lägga till fler baslinjer i ett experiment. Dessutom utsätter två eller fler baslinjer i kombination med en mängd testvariationer försöksledaren för en hög risk för bekräftelsebias: de ger det förväntade resultatet för stor betydelse. Optimizely avråder alla från att lägga till en andra baslinje tillsammans med testvariationer eftersom det ofta är ett mycket missriktat försök av experimentatorer att skydda sig mot fel.

Förhindra falska positiva resultat i A/B-testverktyg och varför det är viktigt

Att köra experiment kan vara bra för att optimera konverteringsfrekvenser eller påverka andra affärskritiska mätvärden. Men om du inte kan lita på att programvaran håller reda på testresultaten på ett korrekt sätt, motverkar det syftet med att ha en testprogramvara till att börja med. Resultaten måste vara:

Pålitliga - kan dulita på att testresultaten är korrekta och återspeglar verkligheten.
Exakta - Det är viktigt att se till att urvalet är tillräckligt stort och att resultaten är stabila.
Signifikanta resultat - Är resultaten för variant B meningsfullt och konsekvent annorlunda än A-varianten.

A/B-testning och experimentprogramvara, som gör att du kan köra mer än bara A/B-tester, är avsedda att ge marknadsförare förtroende för sina testresultat. Att köra ett A/A-test hanterar de två första av de ovannämnda punkterna så att du vet att den tredje, signifikanta resultat, är korrekt och kan lita på.

Hur A/A-testdata kan hjälpa ditt analysverktyg och vice versa

Att använda ett A/A-test är ett utmärkt sätt att mäta din analysuppsättning. Genom att köra samma variant två gånger i samma experiment kan det ge dig en benchmark-kpi att jämföra med. Testdata bör visa vad din genomsnittliga konverteringsfrekvens är.

Hur spelar ditt analysverktyg in i det? Ditt analysverktyg, sannolikt Google Analytics, bör redan spåra dina konverteringsfrekvenser. Så om du kör ett A/A-test för att mäta riktmärkesmetik, borde de inte vara (nästan) desamma? Jo, det stämmer!

A/A-testning är en vanlig metod för att validera verktyg mot sig själva, men också mot andra leverantörer. Om du redan vet att dina Google Analytics-konverteringsfrekvenser spåras korrekt bör ditt A/A-test visa (nästan) samma sak.

Jag behöver hjälp! Mina A/B-testverktyg och analysverktyg visar olika konverteringsfrekvenser efter ett A/A-test

Se till att du kör några vanliga felsökningssteg:

Kontrollera urvalsstorleken för ditt test. Även om det här testet aldrig kommer att uppnå statistisk signifikans, eftersom det inte finns någon verklig skillnad mellan de två varianterna att mäta, är det fortfarande viktigt att köra testet på ett betydande antal besökare för att validera dess noggrannhet.
Kontrollera inriktningsreglerna för båda verktygen. Eftersom de flesta experimentregler måste köras högst upp i sidhuvudet eller kan köras på serversidan, och ditt analysverktyg kan köras i något som Google Tag Manager, kan det hända att reglerna för vilka sidor som ska avfyras med båda verktygen kan skilja sig åt. Se till att testa och kontrollera inställningar och täckning för båda.

Bra minsta urvalsstorlekar för A/A-tester

Stora urvalsstorlekar behövs inte alltid för A/A-kalibreringstester, eftersom du faktiskt inte ändrar något i varianterna. Det är till exempel en utmärkt idé att köra ett A/A-kalibreringstest på startsidan, eftersom det är en av de mest besökta sidorna på många webbplatser ochsnabbt kanhjälpa till attidentifiera eventuella problem med din installation. Att använda en oviktig landningssida är också ett alternativ, men ta alltid hänsyn till externa faktorer. Om trafiken fluktuerar mycket på den här sidan, till exempel på grund av betalda budgetar, kanske det inte är den bästa sidan att köra testet på. Du letar efter en sida med stabila konverteringsfrekvenser att jämföra med.

Optimizely Experiment statistikmotor och A/A-testning:

När du kör ett A/A-test med Web/Feature/produktexperiment kan du i de flesta fall förvänta dig att resultaten från testet inte är avgörande - vilket innebär att konverteringsskillnaden mellan identiska variationer inte kommer att nå statistisk signifikans. Faktum är att antalet A/A-tester som visar ofullständiga resultat kommer att vara minst lika högt som den signifikanströskel som anges i dina projektinställningar (90 % som standard).

I vissa fall kan du dock se att en variant presterar bättre än en annan eller att en vinnare utses för ett av dina mål. Det avgörande resultatet av detta experiment är en ren slump och bör inträffa i endast 10 % av fallen om du har ställt in signifikansgränsen på 90 %. Om din signifikanströskel är högre (t.ex. 95%) är chansen att du får ett avgörande A/A-test ännu mindre (5%).

Fortsätt att lära dig

Är du redo att ta ett djupare dyk in i experimentvärlden?

Här är vad vi rekommenderar: