I test A/B sono esperienze che utilizzano il metodo di allocazione corrispondente e hanno almeno due varianti attive. Puoi visualizzare un report. per ogni esperienza, cliccando su una campagna in uno degli elenchi delle campagne e poi su qualsiasi esperienza.
Tipologie di risultati
Incremento
L'incremento è la differenza percentuale tra le prestazioni di una variante e le prestazioni di una variante di base (di solito il riferimento di controllo). Per esempio, se una variante raggiunge ricavi per utente pari 5 $ e il riferimento di controllo ha ricavi per utente pari a 4, l'aumento è del 25%.
Note: l'incremento non viene calcolato fino a quando la variante di base non avrà almeno una conversione per la metrica.
Probabilità di essere la migliore
La Probabilità di essere la migliore è la chance che una variante faccia meglio di tutte le altre. Questa è la metrica più utilizzabile nel report, perché si usa per definire il vincitore di un test A/B. Mentre l'incremento può variare in base alla probabilità di campioni di piccole dimensioni, la probabilità di essere la migliore tiene conto della dimensione del campione (in base al cosiddetto approccio bayesiano).
Note: il calcolo della probabilità di essere la migliore non si avvierà fino a quando non si registreranno 30 conversioni uniche e 1000 elementi campionati (utenti, sessioni o visualizzazioni di pagina, a seconda della capacità di attrarre utenti selezionata). Per una metrica come gli acquisti per utente o le entrate per utente, le conversioni uniche sono i singoli utenti che hanno effettuato un acquisto. Per una metrica come i CTR, le conversioni uniche sono i clic.
Probabilità di battere il riferimento di controllo
La Probabilità di battere il riferimento di controllo è la chance che una variante faccia meglio della strategia di base. La probabilità di battere il riferimento di controllo equivale alla probabilità di essere la migliore, ma ogni variante competerà solo contro la strategia di base piuttosto che con tutte le altre. È utile nei test con più di due varianti, in cui più varianti potrebbero avere prestazioni superiori al riferimento di controllo, ma prestazioni analoghe tra loro. Ciò significa che nessuna singola variante può avere un'alta probabilità di essere la migliore, ma ognuna può avere un'alta probabilità di battere il riferimento di controllo.
In sintesi, la probabilità di essere la migliore e di battere il riferimento di controllo rispondono alla domanda "Quale variante è la migliore?", mentre l'incremento ci dice “di quanto”.
Intervalli di credibilità
Gli intervalli di credibilità sono intervalli che acquisiscono il valore vero probabile di una metrica con una certa probabilità. Gli intervalli di credibilità sono la controparte bayesiana degli intervalli di confidenza frequentisti, ma a differenza di questi ultimi, si possono interpretare al valore nominale: un intervallo di credibilità del 95% contiene il valore vero probabile della metrica con una probabilità del 95%. Gli intervalli di credibilità di probabilità del 95% e del 50% vengono proposti sia per la metrica (primaria o secondaria) che per l'incremento.
Mentre sia la metrica che l'incremento sono stime calcolate direttamente dai dati raccolti, gli intervalli di credibilità sono un output del motore statistico e rappresentano la nostra certezza sulla stima. Ad esempio, è possibile stimare gli acquisti per utente per una variante a 0,05. Questa stima sarebbe la stessa che ci siano 5 acquisti e 100 utenti o 500 acquisti e 10.000 utenti, anche se intuitivamente, la seconda stima potrebbe sembrare più credibile perché si basa su più dati. Gli intervalli di credibilità sanno rappresentare efficacemente quanto sia credibile la nostra stima, data la quantità di prove che abbiamo raccolto.
Analisi di base
La panoramica della versione del rapporto indica se è stato dichiarato un vincitore per tutti gli utenti o per uno dei tuoi segmenti di pubblico principali.
Si dichiara un vincitore al verificarsi delle seguenti condizioni:
- una variante ha una probabilità di ottenere il miglior punteggio superiore al 95% (la soglia può essere modificata impostando il Livello di significatività della variante vincente ì).
- La durata minima del test è terminata (il valore predefinito di 2 settimane può essere modificato impostando la durata del test). Questa opzione è progettata per limitare l'effetto delle fluttuazioni giornaliere sui risultati.
- Le perdite attese per la variante sono inferiori all'1%. Le perdite attese si possono interpretare come l'aumento medio che avresti perso se avessi proposto una variante, che si è rivelata non essere il migliore. Questa metrica pesa in modo efficace l'entità della perdita subita (ribasso) in base alla probabilità che si verifichi tale perdita (probabilità di essere la migliore).
Note: la perdita prevista viene calcolata dal nostro motore statistico allo scopo di dichiarare le varianti vincenti, ma non viene visualizzata nella console Experience OS.
Analisi delle metriche secondarie
Mentre i vincitori di ogni test si basano sulla metrica principale, Dynamic Yield misura anche metriche aggiuntive denominate secondarie. Non è necessario selezionare in anticipo le metriche secondarie. Vengono tracciate automaticamente e sono disponibili nei tuoi rapporti sulle esperienze. Ti consigliamo di controllare le metriche secondarie prima di proporre la variante vincente a tutti gli utenti per i seguenti motivi:
- può evitare errori (ad esempio, la metrica principale è il CTR, ma la variante vincente potrebbe ridurre gli acquisti, le entrate o l'AOV),
- può portare a informazioni interessanti (ad esempio, gli acquisti per utente sono diminuiti, ma l'AOV è aumentato, il che significa che la variante ha portato gli utenti ad acquistare meno prodotti più costosi, generando complessivamente maggiori entrate),
per ogni metrica secondaria, puoi esaminare l'aumento e la probabilità di ottenere i punteggi migliori per vedere come si è comportata ogni variante,
dopo l'analisi, puoi determinare se mostrare la variante vincente a tutto il tuo traffico o modificare l'allocazione in base a ciò che hai appreso.
Ripartizione del pubblico
Un buon modo per scavare più a fondo è suddividere i risultati in base al pubblico. Questo metodo può aiutare a rispondere a domande come:
- come si è comportato il traffico proveniente da fonti diverse durante il test?
- Quale variante ha vinto per i dispositivi mobili e quale per i desktop?
- Quale variante è stata più efficace per i nuovi utenti?
Ti consigliamo di selezionare segmenti di pubblico significativi per la tua azienda, ma anche segmenti di pubblico che potrebbero avere intenzioni diverse.
Per ogni segmento di pubblico, puoi esaminare l'aumento e la probabilità di essere la migliore per vedere come si è comportata ogni variante,
Dopo l'analisi, puoi determinare se mostrare la variante vincente a tutto il tuo traffico o modificare il targeting in base a ciò che hai appreso.
Note: la suddivisione del pubblico considera gli utenti come parte di un gruppo di destinatari solo se si trovavano in tale gruppo di destinatari al momento della loro prima interazione con la versione di test. Se un utente dovesse entrare nel segmento di pubblico dopo aver interagito con la variante per la prima volta, non verrà considerato parte di quel segmento di pubblico nella suddivisione dell'audience.
Targeting predittivo
A volte, si visualizza un messaggio che indica che è stata rilevata un'opportunità di personalizzazione. Ciò significa che c'è un modo per incrementare l'aumento proponendo a un pubblico specifico una delle varianti perdenti, invece di offrire la vincente a tutto il tuo traffico. Puoi analizzare il rapporto in base a questo segmento di pubblico specifico per comprenderne il comportamento. Per maggiori dettagli, consulta la sezione dedicata al Targeting predittivo.
Cosa succede se un test non dovesse raggiungere risultati significativi?
I test potrebbero richiedere un po' di tempo per raggiungere la significatività, a seconda della quantità di traffico che hanno ricevuto. Tuttavia, di tanto in tanto, è possibile che venga proposto un test in esecuzione per lungo tempo senza raggiungere risultati statisticamente significativi. Ecco alcune opzioni consigliate da intraprendere per assicurarsi di sfruttare al meglio dal test:
- esplorare le metriche secondarie: un test potrebbe non raggiungere risultati significativi nella metrica primaria, ma se una delle varianti dovesse avere prestazioni significativamente migliori nelle metriche secondarie, potrebbe comunque essere ottimale proporla a tutti gli utenti;
- esplorare la suddivisione del pubblico: segmenti di pubblico diversi preferiscono varianti differenti e, a volte, due opzioni sembrano annullarsi a vicenda se si guarda il quadro generale, ma mostrano qualcosa di diverso quando si approfondisce. Ad esempio, se una variante fosse migliore per i dispositivi mobili e l'altra risultasse vincente per i desktop, potrebbe non esserci un chiaro vincitore complessivo, ma bisognerebbe suddividere il pubblico, in modo che ogni variante possa garantire un incremento;
-
identificare le varianti perdenti: se stai testando 3 o più varianti e una di esse ha prestazioni molto scarse dopo che la durata minima del test è stata superata, dovresti applicare una delle varianti principali. Per determinare se una variante perdente ha raggiunto la significatività come perdente, puoi utilizzare la seguente formula: (1/numero di varianti)/10
Quindi, se ci fossero 3 varianti, un PTBB del 3% o inferiore sarà statisticamente significativo. Per 4 varianti, è richiesto il 2% o meno; - identificare le varianti che superano il gruppo di controllo: se il test dovesse includere un gruppo di controllo o una variante di base, è possibile osservare la probabilità di superare il riferimento di controllo. Cerca le varianti con punteggi statisticamente significativi, che superino il livello di significatività impostato per dichiarare un vincitore, e agisci di conseguenza.
- Compara la metrica della variantecon gli intervalli di credibilità: il valore reale delle prestazioni della metrica si troverà all'interno dell'intervallo di credibilità. Confronta gli intervalli delle varianti per identificare quale ha una maggiore probabilità di ottenere le prestazioni migliori.