Les tests A/B sont des expériences qui utilisent la méthode d’attribution des tests A/B et qui ont au moins deux variations actives. Vous pouvez afficher un rapport pour chaque expérience en cliquant sur une campagne dans l’une des listes de campagnes et en cliquant sur une expérience.
Types de résultat
Uplift (effet de levier)
Un Uplift (effet de levier) est la différence en pourcentage entre la performance d’une variation et la performance d’une variation de référence (généralement le groupe témoin). Par exemple, si une variation a un revenu par utilisateur de 5 $ et que le groupe témoin a un revenu par utilisateur de 4 $, l’effet de levier est de 25 %.
Remarque : l’effet de levier n’est pas calculé tant que la variation de référence n’a pas généré au moins une conversion de la métrique.
Probabilité d’être la meilleure
La Probabilité d’être la meilleure est la probabilité qu’une variation soit plus performante que toutes les autres variations. Il s’agit de la métrique la plus exploitable du rapport, utilisée pour définir la variation gagnante d’un test A/B. Alors que l’effet de levier peut varier de façon aléatoire par rapport aux petits échantillons, la probabilité d’être la meilleure variation prend en compte la taille de l’échantillon (basé sur l’approche bayésienne).
Remarque : la probabilité d’être la meilleure variation commence à être calculée seulement lorsqu’il y a au moins 30 conversions et 1 000 échantillons (utilisateurs, sessions ou pages vues, selon la permanence sélectionnée). Pour une métrique telle que les achats par utilisateur ou le revenu par utilisateur, les conversions sont les différents utilisateurs qui ont effectué un achat. Pour une métrique comme le CTR, les conversions sont des clics.
Probabilité de battre le groupe témoin
La Probabilité de battre le groupe témoin est la probabilité qu’une variation soit plus performante que la variation de référence. La probabilité de battre le groupe témoin est équivalente à la probabilité d’être la meilleure, mais chaque variation n’est en concurrence qu’avec la variation de base plutôt qu’avec toutes les autres variations. Elle est utile dans les tests comportant plus de deux variations, où plusieurs variations peuvent être plus performantes que le groupe témoin, mais avoir des performances similaires entre elles. Cela signifie qu’aucune variation ne peut avoir une forte probabilité d’être la meilleure, mais que chacune peut avoir une forte probabilité de battre le groupe témoin.
En résumé, la probabilité d’être la meilleure et la probabilité de battre le groupe témoin répondent à la question « Quelle variation est la meilleure ? », tandis que l’effet de levier répond à la question « De combien ? »
Intervalles crédibles
Un intervalle crédible est un intervalle qui représente la valeur réelle probable d’une métrique avec une certaine probabilité. Les intervalles crédibles sont la contrepartie bayésienne des intervalles de confiance fréquentistes, mais contrairement à ces derniers, ils peuvent être interprétés à leur valeur nominale : un intervalle crédible à 95 % contient la valeur réelle probable de la métrique avec une probabilité de 95 %. Les intervalles crédibles ayant une probabilité de 95 % et de 50 % sont affichés à la fois pour la métrique (primaire ou secondaire) et pour l’effet de levier.
Alors que la métrique et l’effet de levier sont des estimations calculées directement à partir des données collectées, les intervalles crédibles sont un résultat du moteur de statistiques et représentent notre certitude concernant l’estimation. Par exemple, nous pouvons estimer les achats par utilisateur pour une variation de 0,05. Cette estimation serait identique pour 5 achats et 100 utilisateurs ou 500 achats et 10 000 utilisateurs, bien qu’intuitivement, la seconde estimation peut sembler plus crédible, car elle est basée sur davantage de preuves. Les intervalles crédibles reflètent efficacement le degré de crédibilité de notre estimation, compte tenu de la quantité de preuves recueillies.
Analyse de base
L’aperçu de la version du rapport indique si une variation gagnante a été déclarée pour tous les utilisateurs ou pour l’une de vos principales audiences cibles.
Une variation est déclarée gagnante si les conditions suivantes sont remplies :
- Une variation a une probabilité d’être la meilleure avec un score supérieur à 95 % (le seuil peut être modifié à l’aide du paramètre de niveau de signification de variation gagnante).
- La durée minimale du test est écoulée (la durée par défaut de 2 semaines peut être modifiée à l’aide des paramètres de durée du test). Elle permet de limiter l’effet des fluctuations quotidiennes sur les résultats.
- La perte attendue pour la variation est inférieure à 1 %. Elle peut être interprétée comme l’effet de levier moyen que vous perdez si vous déployez une variation et qu’elle s’avère ne pas être la meilleure. Cette métrique évalue en fait la perte que vous subissez par la probabilité que cette perte se produise (probabilité d’être la meilleure).
Remarque : la perte attendue est calculée par notre moteur de statistiques pour déclarer les variations gagnantes, mais elle n’est pas affichée dans la console Experience OS.
Analyse des métriques secondaires
Alors que les variations gagnantes de chaque test sont basées sur la métrique principale, Dynamic Yield mesure également d’autres métrique appelées métriques secondaires. Vous n’avez pas besoin de sélectionner une métrique secondaire à l’avance. Elles sont suivies automatiquement et sont disponibles dans vos rapports d’expérience. Nous vous recommandons de vérifier les métriques secondaires avant d’appliquer la variation gagnante à tous les utilisateurs pour les raisons suivantes :
- Elle permet d’éviter les erreurs (par exemple, votre métrique principale est le CTR, mais la variation gagnante peut diminuer les achats, le revenu ou la valeur de l’AOV (valeur moyenne de commande ou panier moyen).
- Elle peut donner des indications intéressantes (par exemple, les achats par utilisateur ont baissé, mais le panier moyen (AOV) a augmenté, ce qui signifie que la variation a incité les utilisateurs à acheter moins de produits, mais plus chers, et à générer globalement plus de revenu).
Pour chaque métrique secondaire, examinez les scores d’effet de levier et de probabilité d’être la meilleure variation pour découvrir le comportement de chacune.
Après votre analyse, vous pouvez déterminer si vous devez proposer la variation gagnante à l’ensemble de votre trafic ou ajuster votre ventilation en fonction de ce que vous avez appris.
Analyse de la ventilation de l’audience
Un bon moyen d’approfondir la question est de ventiler les résultats par audience cible. Cela permet de répondre à des questions telles que :
- Quel a été le comportement du trafic provenant de différentes sources lors du test ?
- Quelle variation a gagné pour les téléphones mobiles et quelle variation a gagné pour les ordinateurs de bureau ?
- Quelle variation a été la plus efficace pour les nouveaux utilisateurs ?
Nous vous recommandons de sélectionner des audiences intéressantes pour votre entreprise, ainsi que des audiences avec des intentions potentielles différentes.
Pour chaque audience, examiner l’effet de levier et la probabilité d’être la meilleure pour découvrir le comportement de chaque variation.
Après votre analyse, vous pouvez déterminer si vous devez proposer la variation gagnante tout votre trafic ou ajuster votre ventilation en fonction de ce que vous avez appris.
Remarque : la ventilation de l’audience tient compte des utilisateurs faisant partie d’une audience uniquement s’ils en faisaient déjà partie lors de leur première interaction avec la version de test. Si un utilisateur entre dans l’audience après avoir interagi avec la variation pour la première fois, il n’est pas considéré comme faisant partie de cette dernière dans la ventilation de l’audience.
Ciblage prédictif
Parfois, vous pouvez voir un message indiquant qu’une opportunité de personnalisation a été détectée. Cela signifie qu’il est possible d’augmenter l’impact en proposant à une audience spécifique l’une des l’une des variations perdantes, au lieu de proposer la variation gagnante à l’ensemble de votre trafic. Vous pouvez analyser le rapport en fonction de cette audience spécifique afin de comprendre son comportement. Pour plus d’informations, consultez Ciblage prédictif.
Que se passe-t-il si un test n’aboutit pas à des résultats significatifs ?
Les tests peuvent prendre un certain temps avant d’être significatifs, en fonction du niveau de trafic qu’ils reçoivent. Cependant, de temps en temps, un test peut se dérouler pendant une longue période sans résultats statistiquement significatifs. Voici quelques actions recommandées à effectuer pour vous assurer que vous tirez des enseignements du test :
- Explorer les métriques secondaires : un test peut ne pas donner de résultats significatifs dans la métrique principale, mais si l’une des variations donne de meilleurs résultats dans les métriques secondaires, il peut être opportun de la proposer à tous les utilisateurs.
- Explorer la ventilation de l’audience : des audiences différentes préfèrent des variations différentes et, parfois, deux variations semblent s’annuler mutuellement si vous observez la situation globale, mais elles se révèlent différentes lorsque vous les examinez de plus près. Par exemple, si une variation est meilleure pour les mobiles et l’autre pour les ordinateurs de bureau, il n’y aura peut-être pas de variation gagnante, mais si l’on ventile par audience, chacune peut avoir un effet de levier.
-
Identifier les variantes perdantes : si vous testez 3 variations ou plus, et que l’une d’elles donne de très mauvais résultats après la durée minimale du test, vous devez appliquer l’une des variations les plus performantes. Pour déterminer si une variation perdante a atteint le seuil de signification en tant que perdante, utilisez la formule suivante : ( 1/nombre de variations ) / 10
Donc, s’il y a 3 variations, une PTBB (Probabilité d’être la meilleure) de 3 % ou moins est statistiquement significatif. Pour 4 variations, il faut une PTBB de 2 % ou moins. - Identifier des variations qui battent le groupe témoin : si votre test comporte un groupe témoin ou une variation de référence, vous pouvez observer leur probabilité de battre le groupe témoin. Recherchez les variations avec des résultats statistiquement significatifs, c’est-à-dire supérieurs au seuil de signification défini pour déclarer une variation gagnante, et ajustez les actions.
- Comparer la métrique de la variation avec des intervalles crédibles : la valeur réelle de votre performance métrique se situe dans la plage de l’intervalle crédible. Comparez les intervalles des variations pour identifier celle qui a la plus forte probabilité de performances.