Le test A/A est une méthodologie qui consiste à tester des variations identiques les unes par rapport aux autres, afin de valider l’environnement de test plutôt que de déterminer une variation gagnante. En s’assurant que les tests de variations identiques produisent les résultats escomptés, les expérimentateurs peuvent avoir confiance dans la fiabilité des tests A/B ultérieurs.
Les tests A/B peuvent être particulièrement utiles pour :
- Vérifier que la collecte des données a bien été réalisée : en s’assurant que l’implémentation et le suivi des événements sont conformes à votre plateforme d’analyse ou à vos sources de vérité internes.
- Vérifier l’attribution correcte du trafic : en s’assurant que le trafic est réparti de manière aléatoire en fonction de la répartition et éviter les biais sous-jacents.
-
Évaluer le moteur statistique : évaluer si les garanties offertes par la méthode statistique utilisée sont satisfaites. Il est important de noter que les différentes méthodes offrent des garanties différentes. Par exemple :
- Les méthodes fréquentistes utilisées dans les tests d’hypothèse nulle promettent de maintenir les erreurs de type 1 (faux positifs) en dessous d’un certain seuil, à condition que les exigences relatives à la taille de l’échantillon soient satisfaites et que seule l’indicateur prévu soit prise en compte dans l’évaluation. Les rejets de l’hypothèse nulle dans les tests A/A sont des faux positifs, ce qui rend les tests A/A bien adaptés pour valider que le système tient ses promesses.
- La méthode bayésienne utilisée par Dynamic Yield ne se concentre pas sur le contrôle des erreurs de type 1, mais tente plutôt de limiter la perte (downlift) qui se produit en acceptant une fausse découverte. En d’autres termes, elle limite les conséquences négatives d’une erreur, plutôt que de limiter le nombre d’erreurs. Dans les tests A/A, où les variations sont identiques, aucune perte n’est possible, et les tests A/A ne sont donc pas bien adaptés pour évaluer les garanties du système. En particulier, comme le système n’est pas axé sur le contrôle des faux positifs, il ne faut pas s’attendre à ce que les faux positifs soient limités par un certain seuil. Pour en savoir plus, consultez la section Pourquoi le contrôle des faux positifs n’est pas notre objectif principal .
Mise en place d’un test A/A
- Créez une nouvelle campagne avec un code personnalisé dans Site Personalization › New Campaign › Custom Code.
- Donnez un nom à votre campagne (par exemple « AA Test 1 »)
- Si vous disposez d’une intégration analytique (par ex. Google Analytics), assurez-vous qu’elle est activée et cliquez sur Next.
- Sur l’onglet Targeting, cliquez sur Next sans modifier les paramètres.
- Sur l’onglet Variation, cliquez sur New Variation et sélectionnez le modèle Custom Code.
- Sur l’onglet JS, ajoutez le code suivant :
console.log('A/A test variation A');
- Cliquez sur Save Variation.
- Cliquez sur New Variation et créez une deuxième variation avec le code suivant sur l’onglet JS :
console.log('A/A test variation B');
- Après avoir sauvegardé la deuxième variation, dans la colonne Allocation, attribuez 50 % du trafic à chaque variation.
- Utilisez les paramètres par défaut pour l’indicateur principal (par exemple, les achats). Ne modifiez pas les paramètres avancés par défaut qui sont collés pour l’utilisateur (multi-session) ou une fenêtre d’attribution qui commence lorsque la variation est servie et se termine lorsque la session se termine.
- Cliquez sur Next et définissez le statut de l’expérience sur Actif.
- Cliquez sur Save Experience and Publish. Ne vous inquiétez pas, cela n’aura aucun impact sur l’expérience de vos visiteurs. Les utilisateurs affectés à des variations ne déclencheront qu’un message console.log dans le navigateur.
- Retournez à la page des campagnes, trouvez la campagne A/A Test que vous venez de créer et cliquez sur le bouton Duplicate pour en créer une autre appelée A/A test 2. Répétez le processus jusqu’à ce que vous ayez au moins 20 campagnes.
Pourquoi dupliquer le test A/A ?
Un seul test A/A peut suffire pour repérer des problèmes de collecte de données ou d’attribution de trafic. Toutefois, pour valider la fiabilité du moteur statistique, il est important d’effectuer autant de tests A/A que possible, car les garanties statistiques reposent généralement sur la répétition des tests. Un faible pourcentage de faux positifs est communément accepté, et la création de plusieurs tests A/A garantit que vous obtiendrez des informations sur le moteur statistique dans un programme de tests A/B global.
C’est pourquoi vous devez répéter le processus suivant autant de fois que possible (nous vous recommandons de le faire 20 fois). Vous pouvez simplement dupliquer le test après avoir créé le premier.
Évaluation des résultats des tests A/A
Après avoir lancé vos tests A/A, nous vous recommandons de collecter des données pendant deux semaines avant de commencer à évaluer les résultats. Il est important de les évaluer dans les étapes suivantes, car ces étapes sont basées les unes sur les autres :
Étape 1 : Vérifier la collecte des données
Objectif : les données collectées doivent correspondre à un système d’enregistrement externe avec un écart inférieur à 5 %.
Si vous constatez que l’écart est plus important, tenez compte des éléments suivants :
- Par défaut, Dynamic Yield exclut les valeurs aberrantes des résultats, veillez donc à désactiver l’exclusion des valeurs aberrantes le cas échéant.
- Assurez-vous que la comparaison est valide. Par exemple, si vous utilisez Google Analytics, assurez-vous que la propriété correspond aux pages où le script de la plateforme de test A/B est implémenté.
- Envisagez un double suivi : surveillez les utilisateurs sur la plateforme d’analyse et les achats sur la plateforme d’analyse du e-commerce.
Étape 2 : Vérifier l’exactitude de l’attribution
Objectif : aucune erreur de rapport d’échantillonnage ne doit être détectée. La répartition du trafic est similaire à celle définie dans la configuration du test. En raison de son caractère aléatoire, l’attribution ne sera jamais exactement telle que définie, mais vous pouvez utiliser ce calculateur pour détecter les problèmes potentiels, en indiquant le nombre d’utilisateurs de chaque variation.
Si vous détectez une inadéquation du ratio d’échantillonnage, vérifiez s’il existe une automatisation connue sur votre site (telle que la génération de trafic par une machine à des fins d’assurance qualité) ou un trafic généré par des robots externes (tels que des scrappeurs), et corrigez-la dans la mesure du possible. Si le problème persiste, contactez le service d’assistance.
Étape 3 : Évaluer le moteur statistique
Objectif : la plupart des tests n’ont pas de variation gagnante déclarée. Dans les tests A/B standard, on peut s’attendre à un taux de faux positifs d’environ 5 % (c’est-à-dire une variation gagnante qui n’est pas nécessairement meilleure, voire pire, ou qui, dans la plupart des cas, ne présente tout simplement aucun avantage par rapport à l’autre variation). Toutefois, dans les tests A/A, comme aucune des variations n’est meilleure que l’autre, le risque de faux positif est de 10 % - 5 % pour chacune des deux variations.
Si l’une des variations a une probabilité d’être la meilleure égale ou supérieure à 95 % :
- Assurez-vous du succès des étapes 1 et 2 de l’analyse du test A/A.
- Vérifiez que si la probabilité d’être la meilleure a franchi le seuil de 95 %, et que l’augmentation et l’intervalle de crédibilité de l’augmentation sont tous deux faibles. Dans ce cas, une déclaration de faux positif s’est produite, mais notre système a évalué la perte potentielle (downlift) liée au passage à la variation gagnante comme étant minime, et a donc recommandé de passer à la variation gagnante. Ce résultat est attendu, étant donné que les variations sont identiques et qu’il n’y a pas de perte possible en cas de changement.
Le moteur de statistiques Dynamic Yield donne la priorité à la limitation de la perte attendue, plutôt qu’à la minimisation des déclarations faussement positives, de sorte qu’il ne faut pas s’attendre à ce que le nombre total de déclarations soit limité par un certain seuil. Cependant, si un nombre anormalement élevé de déclarations se produit (disons 10/20) et qu’elles sont associées à des hausses ou des baisses extrêmes, cela peut indiquer que la variance de la mesure est plus élevée que prévu, ou qu’il peut y avoir un problème avec les processus de génération ou de collecte des données. Dans ce cas, contactez le service d’assistance.
Pourquoi le contrôle des faux positifs n’est pas notre objectif principal
Dans une approche fréquentiste, les tests A/A sont utilisés pour s’assurer que le taux de faux positifs reste dans le seuil souhaité. Par exemple, si vous effectuez un grand nombre de tests A/A avec un seuil de signification de 95 % (et que vous ne comparez pas plusieurs indicateurs), moins de 5 % devraient rejeter l’hypothèse nulle.
Cependant, le moteur statistique Dynamic Yield utilise la méthode bayésienne, qui n’est pas axée sur le contrôle des faux positifs. Celle-ci vise plutôt à minimiser la perte attendue. Pour clarifier : ne vous souciez pas de prendre souvent une mauvaise décision si celle-ci n’a que peu ou pas d’impact. Vous devez en revanche vous inquiétez si un petit nombre de mauvaises décisions ont un impact considérable.
Si le contrôle du taux de faux positifs est crucial dans la recherche scientifique pour éviter de rendre publiques de fausses découvertes (par exemple, un remède qui ne fonctionne pas), il est moins important dans un contexte professionnel et peut même s’avérer contre-productif. La perte attendue permet d’atteindre cet équilibre en mettant en balance la fréquence des décisions incorrectes et leurs conséquences négatives potentielles. En d’autres termes, nous hiérarchisons les décisions en fonction de la fréquence et de l’ampleur de leurs effets négatifs potentiels. C’est pourquoi l’approche bayésienne a gagné en popularité ces dernières années et est utilisée par la plupart des plateformes A/B modernes.