Il test A/A è una metodologia che si basa sulla valutazione di varianti identiche l'una all'altra, per convalidare l'ambiente di test piuttosto che determinare una variante vincente. Con la garanzia che la verifica delle varianti identiche produca i risultati attesi, gli sperimentatori possono acquisire fiducia nell'affidabilità dei successivi test A/B.
I test A/A possono essere particolarmente utili per:
- Verificare la corretta raccolta dei dati: la garanzia dell'attuazione e il monitoraggio degli eventi saranno allineati con la piattaforma di analisi o con le fonti interne di verifica.
- Verificare la corretta allocazione del traffico: permettono di assicurarsi che il traffico sia allocato in modo casuale in base alla suddivisione, evitando eventuali distorsioni correlate.
-
Valutare il motore statistico: aiutano a capire se le garanzie offerte dal metodo statistico in uso sono soddisfacenti. È importante notare che metodi diversi offrono garanzie differenti. Ad esempio:
- i metodi usati frequentemente nella verifica delle ipotesi nulle promettono di mantenere errori di tipo 1 (falsi positivi) al di sotto di una determinata soglia, a patto che i requisiti relativi alle dimensioni del campione siano soddisfatti e si consideri solo la metrica stabilita nella valutazione. Le ipotesi nulle rifiutate nei test A/A sono falsi positivi, il che rende i test A/A adatti a verificare che il sistema rispetti le premesse su cui è stato impostato.
- Il metodo bayesiano utilizzato da Dynamic Yield non si concentra sul controllo degli errori di tipo 1, ma cerca piuttosto di limitare la perdita (downlift) che si verifica accettando una assunzione falsa. In altre parole, limita le conseguenze negative di un errore, piuttosto che contenere il numero di errori. Nei test A/A, in cui le varianti sono identiche, non è ammessa alcuna perdita e, quindi, i test A/A non sono adatti per valutare ciò che il sistema garantisce. In particolare, dato che il sistema non si concentra sul controllo dei falsi positivi, non ci si dovrebbe aspettare che questi siano vincolati a una determinata soglia. Per saperne di più, puoi consultare la sezione Perché il controllo dei falsi positivi non è il nostro obiettivo principale .
Impostare un test A/A
- Crea una nuova campagna con codice personalizzato dalla sezione Personalizzazione del sito › Nuova campagna › Codice personalizzato.
- Assegna un nome alla tua campagna (ad es. "AA Test 1").
- Se disponi di un sistema integrato di analisi (ad es. Google Analytics), assicurati che sia abilitato e clicca su Avanti.
- Nella scheda dedicata al targeting, clicca Avanti senza cambiare nessuna impostazione.
- Nella scheda variante, clicca Nuova variante e seleziona il modello Codice personalizzato.
- Nella scheda JS, aggiungi il seguente codice:
console.log('A/A test variation A');
- Clicca su Salva variante.
- Clicca su Nuova variante e crea una seconda opzione con il seguente codice nella tabella JS:
console.log('A/A test variation B');
- Dopo aver salvato la seconda variante, usa la colonna di allocazione per distribuire il 50% del traffico a ciascuna variante.
- Usa le impostazioni predefinite per la metrica principale (ad esempio, acquisti). Non modificare le impostazioni avanzate predefinite e permanenti per l'utente (multisessione) o una finestra di attribuzione che inizia quando si propone la variante e termina al termine della sessione.
- Clicca Avanti e imposta lo stato dell'esperienza su Attivo.
- Clicca Salva esperienza e pubblica. Non preoccuparti, questo non influirà sull'esperienza dei tuoi visitatori. Con gli utenti assegnati alle varianti si attiverà solo un messaggio console.log nel browser.
- Torna alla pagina delle campagne, trova la campagna di test A/A appena creata e clicca sul pulsante duplica per crearne una aggiuntiva, che chiamerai "A/A test 2". Ripeti il processo fino a quando non avrai almeno 20 campagne.
Perché duplicare il test A/A?
Un singolo test A/A potrebbe essere sufficiente per individuare eventuali problemi nella raccolta dei dati o nell'allocazione del traffico. Tuttavia, per convalidare l'affidabilità del motore statistico, è importante eseguire il maggior numero possibile di test A/A, perché le statistiche e le garanzie si basano generalmente sulla premessa di prove ripetute. Si tratta di uno standard di settore, che accetta una piccola percentuale di falsi positivi per creare test A/A multipli che assicurano di ottenere informazioni dettagliate sulle statistiche del motore attraverso un programma di test A/B nel suo complesso.
Per questo motivo, puoi ripetere il seguente processo il maggior numero di volte possibile (noi raccomandiamo 20 volte). Puoi semplicemente duplicare il test dopo aver creato il primo.
Valutazione dei risultati dei test A/A
Dopo aver avviato un test A/A, si consiglia di raccogliere i dati per due settimane prima di valutarne i risultati. È importante valutare i seguenti passaggi, poiché sono legati l'uno all'altro:
Passaggio 1: verificare la raccolta dei dati
Aspettative: i dati raccolti corrispondono a un sistema di registrazione esterno con una discrepanza inferiore al 5%.
Se dovessi notare una discrepanza maggiore, considera quanto segue:
- Per impostazione predefinita, Dynamic Yield esclude i valori anomali dai risultati, quindi, assicurati di disattivare l'esclusione dei valori anomali, se appropriato.
- Assicurati che il confronto sia valido. Ad esempio, se usi Google Analytics, assicurati che le proprietà siano allineate con le pagine su cui hai eseguito lo script della piattaforma di test A/B e che sia stato implementato correttamente.
- Prova con il doppio monitoraggio: monitora gli utenti nella piattaforma di analisi e gli acquisti nel sistema di analisi della piattaforma di e-commerce.
Passaggio 2: verificare l'accuratezza dell'allocazione
Aspettative: non viene rilevata alcuna mancata corrispondenza nel rapporto di campionamento. La suddivisione del traffico è simile alla ripartizione definita nella configurazione del test. Per via della casualità, l'allocazione non sarà mai esattamente come definito, ma è possibile usare questo calcolatore per verificare se ci fosse un problema, inserendo il numero di utenti di ogni variante.
Se si verificasse una mancata corrispondenza nel rapporto di campionamento, basta verificare se esiste un'automazione nota in esecuzione sul tuo sito (ad esempio il traffico generato automaticamente per scopi di QA) o se c'è del traffico bot (come gli scraper) e affrontare la situazione, se possibile. Se il problema dovesse persistere, contatta l'assistenza.
Passaggio 3: valutare il motore statistico
Aspettative: nella maggior parte dei test non è stata dichiarata una variante vincente. Nei test A/B standard, ci si può aspettare un tasso di falsi positivi di circa il 5% (ovvero, una variante vincente che non è necessariamente la migliore, ma persino la peggiore, o, nella maggior parte dei casi, semplicemente non ha alcun vantaggio rispetto all'altra opzione). Tuttavia, nei test A/A, poiché nessuna delle varianti è migliore dell'altra, la possibilità di un falso positivo è del 10% – 5% per ciascuna delle 2 opzioni.
Se una delle varianti dovesse avere un punteggio di probabilità di essere la migliore pari o superiore al 95%:
- assicurati di aver superato con successo i passaggi 1 e 2 dell'analisi del test A/A.
- Verifica che, se la probabilità di essere la migliore ha superato la soglia del 95%, sia l'aumento che l'intervallo di credibilità sull'aumento siano contenuti. In tali casi, si può verificare una falsa dichiarazione positiva, ma il nostro sistema può valutare la potenziale perdita (downlift) collegata al passaggio alla variante vincente come minima e, quindi, può passare da una raccomandazione all'altra. Questo comportamento è previsto, dato che le varianti sono identiche e non vi è alcuna possibile perdita nella commutazione.
Il motore statistico di Dynamic Yield dà la priorità alla limitazione delle perdite previste, piuttosto che alla riduzione al minimo delle dichiarazioni di falsi positivi, quindi, non ci si può aspettare che il numero totale di dichiarazioni sia vincolato a una determinata soglia. Tuttavia, nel caso si verifichi un numero insolitamente elevato di dichiarazioni (ad esempio, 10/20), associato a incrementi/perdite estremi, potrebbe significare che la varianza della metrica è più alta del previsto o che potrebbe esserci un problema con la generazione o la raccolta dei dati durante i processi. In questo caso, prova a contattare il supporto.
Perché il controllo dei falsi positivi non è il nostro obiettivo principale
In un approccio frequentista, i test A/A si usano per garantire che i falsi positivi rimangano entro la soglia desiderata. Ad esempio, in presenza di un grande numero di test A/A con una soglia di significatività del 95% (che non confronta molteplici metriche), non più del 5% dovrebbe rifiutare l'ipotesi nulla.
Tuttavia, il motore statistico di Dynamic Yield si affida al metodo bayesiano, che non è incentrato sul controllo dei falsi positivi. Al contrario, mira a ridurre al minimo le perdite. Per chiarire: potresti non preoccuparti di prendere spesso una decisione sbagliata se la decisione ha un impatto minimo o nullo. D'altra parte, probabilmente non saresti così felice di quel numero limitato di decisioni sbagliate, se tali opzioni dovessero avere un impatto importante.
Sebbene il controllo del tasso di falsi positivi sia fondamentale nella ricerca scientifica per evitare di pubblicizzare false scoperte (ad esempio, una cura che non funziona), è meno importante in un contesto aziendale e potenzialmente anche controproducente. Le perdite attese raggiungeranno questo equilibrio soppesando la frequenza delle decisioni errate rispetto alle loro conseguenze potenzialmente negative. In termini più semplici, diamo priorità alle decisioni sulla base sia della frequenza e non dell'entità dei loro potenziali impatti negativi. Questo è il motivo per cui l'approccio bayesiano ha guadagnato così tanta popolarità negli ultimi anni e la maggior parte delle moderne piattaforme A/B lo usano sempre di più.