Les tests A/B sont des expériences qui utilisent la méthode d’attribution des tests A/B et qui ont au moins deux variations actives. Vous pouvez afficher un rapport pour ces expériences en cliquant sur l’icône sur n’importe quelle page qui répertorie des campagnes ou des expériences ou via la tuile Tests A/B du tableau de bord.
Le rapport vous permet d’évaluer les résultats d’un test et d’en tirer des conclusions, tout en vous donnant la possibilité de découvrir des informations supplémentaires en appliquant une segmentation et en explorant des indicateurs secondaires.
Remarque : Nous avons publié une nouvelle génération des rapports de tests A/B le 17 décembre 2023. Cet article décrit les fonctionnalités des nouveaux rapports. Les nouveaux rapports sont disponibles pour tous les tests réalisés après le 1er juillet 2023, tandis que les tests qui ont pris fin avant cette date peuvent encore être consultés à l’aide des rapports précédents.
Sélection d’une version de test
Par défaut, le rapport présente les résultats de la dernière version du test. Vous pouvez sélectionner une version antérieure du test dans le menu déroulant « Version » :
Une synthèse des résultats de la version sélectionnée s’affiche sur l’onglet « Summary » (synthèse) :
Cette synthèse comprend les éléments suivants :
- les dates auxquelles la version du test sélectionnée a été exécutée.
- Les résultats du test sur l’ensemble du trafic. Une version est mise en évidence si elle a été déclarée gagnante.
- Les résultats du test sur les audiences primaires. Une version est mise en évidence si elle a été déclarée gagnante pour l’audience.
- Opportunités de personnalisation détectées par le ciblage prédictif.
Comparaison des performances des variations
Les visualisations du rapport vous permettent de comparer les performances des différentes variations.
Tableau des performances des variations
Ce tableau présente les résultats des tests par variation et par indicateur, les résultats étant basés par défaut sur l’indicateur principal. Cliquez sur le bouton « Metrics » (indicateurs) pour ajouter des indicateurs secondaires à votre analyse. Ceux-ci sont affichées dans des tableaux supplémentaires sous le tableau de l’indicateur principal.
La structure de chaque tableau est similaire pour les indicateurs primaires et secondaires, avec une ligne par variation et les champs décrits dans le tableau suivant :
Field (champ) | Definition (définition) |
Normalization unit (unité de normalisation) Exemples : Utilisateurs, sessions |
En fonction de l’adhérence, il s’agit de l’unité par laquelle l’indicateur choisi est normalisé :
Ce nombre se trouve sous le nom de chaque variation. |
Totaux des indicateurs Exemples : Achats, recettes |
Si l’indicateur sélectionné est un événement ou un objectif, tel que les achats, il s’agit du nombre d’achats attribués à la variation. Si l’indicateur sélectionné est la valeur d’un événement, comme le revenu des achats, il s’agit de la valeur totale de l’événement attribuée à la variation. Les clics et les pages vues sont d’autres indicateurs courants qui ne sont pas liés à des événements. |
Indicateur normalisé Exemples : Achats/utilisateur, recettes/utilisateur |
Le total de l’indicateur divisé par l’unité de normalisation du test. Cet indicateur vous permet de comparer équitablement les performances de différentes variations, en normalisant les résultats en fonction de l’exposition réelle qu’elles ont reçue. |
Uplift (Effet de levier) | Le ratio de l’indicateur normalisé de chaque variation par rapport à celui du groupe témoin, moins 1. Cet indicateur n’apparaît que s’il existe un groupe témoin ou si une variation de référence a été sélectionnée. Vous pouvez choisir la variation à utiliser comme référence au-dessus du tableau des performances des variations. |
Probability to Be Best (Probabilité d’être la meilleure) |
La probabilité qu’une variation soit plus performante que toutes les autres variations du test. Il s’agit d’un calcul qui prend en compte la différence de performance de chaque variation et la confiance statistique que nous avons dans les résultats. Il s’agit de l’indicateur le plus exploitable des résultats de vos tests A/B, car il définit le moment où les résultats sont concluants et où vous pouvez appliquer la variation gagnante à l’ensemble du trafic. Si une variation a été déclarée gagnante, un trophée apparaît à côté de Probabilité d’être le meilleur, et les augmentations sont colorées en vert ou en rouge. Une variation est déclarée gagnante si :
|
Probabilité de battre le groupe témoin | La probabilité qu’une variation soit plus performante que la ligne de base. La probabilité de battre le groupe témoin est équivalente à la probabilité d’être le meilleur, mais chaque variation n’est en concurrence qu’avec la ligne de base plutôt qu’avec toutes les autres variations. Elle est utile dans les tests comportant plus de deux variations, où plusieurs variations peuvent être plus performantes que le groupe témoin, mais avoir des performances similaires les unes par rapport aux autres. Cela signifie qu’aucune variation ne peut avoir une forte probabilité d’être la meilleure, mais que chacune peut avoir une forte probabilité de battre le groupe témoin. |
Intervalles crédibles |
Un intervalle crédible est un intervalle qui représente la valeur réelle probable d’un indicateur avec une certaine probabilité. Les intervalles crédibles sont la contrepartie bayésienne des intervalles de confiance fréquentistes, mais contrairement à ces derniers, ils peuvent être interprétés à leur valeur nominale : un intervalle crédible à 95 % contient la valeur réelle probable de l’indicateur avec une probabilité de 95 %. Des intervalles crédibles de 95 % et de 50 % de probabilité sont disponibles à la fois pour l’indicateur (primaire ou secondaire) et pour l’élévation. |
Sélection d’une variation de référence
Si un test n’a pas de groupe témoin par défaut, mais que vous souhaitez utiliser une variation spécifique comme base de référence pour les calculs de l’augmentation et de la probabilité de battre le groupe témoin, vous pouvez sélectionner une variation dans le menu déroulant « Baseline ».
Travailler avec des intervalles crédibles
Par défaut, les rapports affichent des intervalles crédibles textuels, représentant l’intervalle crédible à 95 % pour l’indicateur normalisé et l’élévation.
Utilisez le commutateur dans le menu déroulant Additional Options (options supplémentaires) pour afficher des intervalles crédibles graphiques à la place.
Les intervalles graphiques sont un excellent moyen de comparer visuellement les variations et, en plus des intervalles à 95 % (ligne horizontale fine), ils affichent également les intervalles à 50 % (ligne horizontale épaisse).
L’intervalle pour la ligne de base sélectionnée est coloré en gris avec des lignes pointillées pour faciliter la comparaison avec les autres variations (notez que l’intervalle pour l’élévation de la ligne de base n’existe pas).
Lorsque vous survolez un intervalle, apparaît une infobulle contenant les valeurs de l’intervalle.
Graphique des données temporelles
Cliquez sur le bouton « Over Time Data » (données temporelles) dans le tableau « Variation Performance » (performances des variations) pour afficher les résultats quotidiens de l’indicateur sélectionné, pour chaque variation.
Vous pouvez tracer les totaux absolus ou normalisés de l’indicateur sélectionné sous forme de résultats quotidiens ou cumulés.
Alors que les résultats quotidiens sont utiles pour inspecter les fluctuations quotidiennes, les résultats cumulatifs sont utiles pour voir comment l’estimation de l’indicateur normalisé converge dans le temps au fur et à mesure de la collecte des données.
Travailler avec des plages de temps
Par défaut, les rapports affichent toutes les données de la version sélectionnée (le bouton « Time Frame », cadre temporel, affiche l’ensemble des données). Si vous le souhaitez, vous pouvez cliquer sur le bouton « Time Frame » (cadre temporel) et filtrer une période spécifique de la version sélectionnée :
Notez que vous ne pouvez pas sélectionner une période qui s’étend sur plusieurs versions, c’est-à-dire mélanger les données de plusieurs versions. Cela permet de s’assurer que les variations restent comparables entre elles.
Comportement de la plage de temps en fonction de la fidélité de l’utilisateur
Lorsque le filtrage porte sur une période qui n’inclut pas le début du test, tous les utilisateurs qui ont été exposés au test avant cette période sont exclus des résultats, y compris leur activité éventuelle au cours de la période sélectionnée.
Cela permet de s’assurer que les variations sont comparables et d’éviter les problèmes de biais de survie, une forme de biais de sélection, car la population observée d’utilisateurs sur la période sélectionnée pourrait autrement être influencée par leur exposition au test avant la période en question.
Par exemple, si les données de la version complète comprennent deux utilisateurs et deux achats :
La sélection de la période suivante exclurait l’utilisateur 1 et son achat, car sa première exposition au test a eu lieu avant la période sélectionnée, et son achat pourrait donc être influencé par quelque chose en dehors de la période sélectionnée.
Une application pratique de ce comportement est que pour tout intervalle de temps sélectionné, les résultats du test sont basés sur des utilisateurs entièrement nouveaux qui ont fait l’expérience de votre campagne pour la première fois au cours de la période donnée. Cela peut être utile, par exemple, pour exclure l’effet d’une promotion qui a eu lieu au cours de la première semaine d’un test se déroulant sur plusieurs semaines.
Bien qu’il puisse être utile de filtrer des périodes spécifiques en fonction du contexte, de manière générale, nous vous déconseillons vivement de :
- Tirer des conclusions en utilisant toutes les données collectées.
- D’utiliser des sous-ensembles de données complètes contenant des semaines entières.
Comportement de la plage de temps avec l’adhérence de la session
Le comportement décrit dans la section précédente s’applique conceptuellement, mais pas pratiquement, aux tests avec persistance de la session. En effet, pour les besoins des rapports de tests A/B, les sessions se terminent à minuit et, par conséquent, toute date individuelle de toute période sélectionnée contient des sessions complètes et des événements attribués complets.
Aujourd’hui (données en temps réel)
En sélectionnant « Today » (aujourd’hui) dans le filtre de la plage horaire, vous pouvez accéder à une version simplifiée du rapport qui montre toute l’activité de la journée en cours en temps réel. Notez que cette vue est conçue pour contrôler la vivacité et le bon déroulement d’un test et n’inclut pas certaines fonctionnalités du rapport telles que la répartition de l’audience ou la gestion des valeurs aberrantes. En raison de la quantité potentiellement importante de données en direct prises en compte, il peut falloir plus de temps pour afficher cette vue que pour afficher les vues précédentes.
Ventilation de l’audience
Utilisez le menu déroulant « Audience Breakdown » (ventilation de l’audience) pour segmenter les résultats des tests par audience.
Après avoir sélectionné une audience dans la liste, tous les tableaux sont ventilés par audience et indiquent le pourcentage du nombre total d’utilisateurs ou de sessions appartenant à l’audience.
Toutes les fonctionnalités des tableaux disponibles sans ventilation par audience existent également pour la ventilation par audience, à l’exception des données au fil du temps, qui ne sont disponibles que pour le trafic global.
Remarque : L’analyse d’audience considère que les utilisateurs font partie d’une audience uniquement s’ils étaient dans cette audience au moment de leur première interaction avec la version de test. Si un utilisateur entre dans l’audience après avoir interagi avec la variation pour la première fois, il n’est pas considéré comme faisant partie de cette audience dans la répartition de l’audience.
Traitement des valeurs aberrantes
Les valeurs aberrantes sont des observations anormales qui, bien que rares, peuvent avoir suffisamment de poids pour fausser les résultats d’un test. Dynamic Yield détecte et traite deux types de valeurs aberrantes :
- Valeurs extrêmes des événements : s’applique à chaque événement ou objectif ayant une valeur.
- Utilisateurs avec un nombre extrême d’événements : s’applique à chaque événement ou objectif (à partir du 1er juillet 2023).
Si Dynamic Yield détecte que la valeur d’un événement basé sur les revenus ou le nombre d’événements réalisés par un utilisateur spécifique dépasse un seuil, l’événement ou l’utilisateur est étiqueté comme « valeur aberrante » et est remplacé ou exclu des résultats, en fonction du type de valeur aberrante. En savoir plus sur le traitement des valeurs aberrantes.
Par défaut, les rapports de tests A/B excluent les valeurs aberrantes, mais vous pouvez les inclure en désactivant le commutateur dans le menu déroulant « Additional Options » (options supplémentaires).
Les deux types de valeurs aberrantes (valeurs d’événements extrêmes et utilisateurs présentant un nombre extrême d’événements) sont exclus via le même sélecteur. Tous les chiffres des rapports sont affectés par ce sélecteur, à l’exception du ciblage prédictif, qui calcule toujours les résultats sans valeurs aberrantes.
Vous pouvez exporter un journal de tous les événements dont les valeurs ont été marquées comme aberrantes pour un test spécifique et la manière dont leur valeur a été traitée en utilisant l’exportation du journal des événements de recettes décrite dans la section suivante.
Exportation des données d’un rapport
Vous pouvez exporter les données du rapport vers un fichier CSV afin de les analyser plus en détail sur une autre plateforme ou de les partager en externe en cliquant sur « Export ».
Deux options d’exportation sont disponibles :
- Rapport complet : une version CSV du rapport, y compris tous les indicateurs secondaires et la répartition de l’audience (le cas échéant).
- Journal des événements de revenus : un journal qui inclut tous les événements avec une valeur d’événement (comme les Achats), avec des informations indiquant s’ils ont été étiquetés comme aberrants en raison d’une valeur d’événement extrême ou parce que l’utilisateur qui les a effectués a été étiqueté comme étant un utilisateur avec un nombre extrême d’événements.
Fréquence de mise à jour
Le rapport de test A/B est calculé chaque nuit peu après minuit, en fonction du fuseau horaire sélectionné dans les paramètres généraux de la section. Les résultats de la veille devraient être disponibles à 9 heures du matin dans le fuseau horaire sélectionné.
Disponibilité
Le rapport sur les tests A/B est disponible si :
- Votre expérience utilise la méthode d’attribution des tests A/B et a au moins deux variations actives.
- L’expérience a été mise en ligne le ou après le 1er juillet 2023. Les tests qui ont pris fin avant cette date restent disponibles avec les rapports précédents.
Foire aux questions
Quelles sont les pages vues prises en compte dans l’indicateur Pageviews ?
L’indicateur de pages vues comptabilise les pages vues attribuables à une variation donnée, c’est-à-dire celles qui sont apparues après que la variation a été proposée à l’utilisateur.
Comment l’Uplift est-il calculé ?
L’augmentation compare les performances de chaque variation à celles du groupe témoin. Elle n’est pertinente que si un groupe témoin ou une variation de référence a été défini. Le calcul est le suivant : (indicateur normalisé de la variation / indicateur normalisé du groupe témoin ou de référence) -1. Par exemple, si le revenu/utilisateur d’une variation est de 5 $, mais seulement de 4 $ pour le groupe témoin, le calcul est le suivant : (5 / 4) -1 = 0,25, soit une augmentation de 25 %.
Pourquoi n’ai-je pas d’informations sur les clics ou le CTR ?
L’indicateur CTR n’apparaît que dans les types de campagnes qui affichent du HTML (comme les recommandations, le contenu dynamique et les superpositions). En effet, le CTR comptabilise les clics sur l’élément HTML rendu. Par conséquent, les types de campagne qui ne rendent aucun élément HTML (comme le code personnalisé ou l’édition visuelle) ne peuvent pas comptabiliser les clics. Si vous souhaitez comptabiliser les clics pour l’un de ces types de campagne, vous pouvez déclencher un événement personnalisé lorsque vous cliquez sur l’élément pour lequel vous souhaitez comptabiliser les clics.
Dans les campagnes multi-touch, les clics ne sont comptabilisés que pour les points de contact (qui peuvent contenir un élément HTML) et non pour la variation parente.
Pourquoi manque-t-il des utilisateurs lorsque je compare la répartition de l’audience à la population globale ?
Dans les rapports de tests A/B, lorsque vous décomposez les résultats par audience, vous pouvez remarquer que certains utilisateurs n’ont été segmentés dans aucune audience. Cela est dû au fait que les utilisateurs doivent faire partie de l’audience sélectionnée au moment de leur première interaction avec la variation. Quelle en est la cause ?
- La variation redirige l’utilisateur vers une autre page immédiatement après son apparition. Cela peut entraîner la disparition de données dans la répartition de l’audience, et même jusqu’à 100 % des données. Apprenez comment éviter cela en utilisant ce guide sur les tests de fractionnement/réorientation.
- Les utilisateurs ont quitté le site ou la page immédiatement après avoir reçu la variation.
- Dans les audiences par type d’appareil : si l’appareil est inconnu (ni smartphone, ni tablette, ni ordinateur).
Remarque : les données de tous les utilisateurs comprennent les données de tous les utilisateurs, même si leurs données n’apparaissent pas dans la répartition de l’audience.