Os testes A/B são experiências que usam o método de alocação de teste A/B e possuem pelo menos duas variações ativas. Você pode visualizar um relatório para cada experiência clicando numa campanha, em uma das listas de campanhas, e depois em qualquer experiência.
Tipos de resultado
Elevação
A elevação (uplift) é a diferença percentual entre o desempenho de uma variação e o desempenho de uma variação de base (geralmente o grupo de controle). Por exemplo, se uma variação tiver uma receita por usuário de R$ 25, e o controle tiver uma receita por usuário de R$ 20, a elevação é de 25%.
Observação: a elevação não é calculada até que a variação de base tenha pelo menos uma conversão para a métrica.
Probabilidade de ser a melhor
A probabilidade de ser a melhor (probability to be best) é a chance de uma variação superar o desempenho de todas as outras variações. Essa é a métrica mais acionável do relatório, usada para definir a vencedora em um teste A/B. Enquanto a elevação pode variar com base na chance de amostras pequenas, a probabilidade de ser a melhor leva em consideração o tamanho da amostra (com base na abordagem bayesiana).
Observação: a probabilidade de ser a melhor não começa a ser calculada até que haja pelo menos 30 conversores e 1000 amostras (usuários, sessões ou visualizações de página, dependendo da aderência [stickiness] selecionada). Para uma métrica como compras por usuário ou receita por usuário, os conversores são usuários distintos que tenham feito uma compra. Para uma métrica como CTR, os conversores são cliques.
Probabilidade de vencer o controle
A probabilidade de vencer o controle (probability to beat control) é a chance de uma variação superar o desempenho da base. A probabilidade de vencer o controle é equivalente à probabilidade de ser a melhor, mas cada variação compete somente contra a base, em vez de competir contra todas as outras variações. Ela é útil em testes com mais de duas variações, onde múltiplas variações podem superar o desempenho do controle, mas têm desempenhos semelhantes entre si. Isso significa que nenhuma variação isolada tem uma probabilidade maior de ser a melhor, mas cada uma pode ter uma alta probabilidade de vencer o controle.
Em resumo, a probabilidade de ser a melhor e a probabilidade de vencer o controle respondem à pergunta "qual variação é melhor?", enquanto a elevação responde à pergunta "o quanto ela é melhor?".
Intervalos de credibilidade
Um intervalo de credibilidade é uma faixa que captura o valor real provável de uma métrica com uma determinada probabilidade. Os intervalos de credibilidade são a contrapartida bayesiana dos intervalos de confiança frequentista, mas diferentemente deste, aqueles podem ser interpretados pelo valor nominal: um intervalo de credibilidade de 95% contém um valor real provável da métrica com 95% de probabilidade. Intervalos de credibilidade de 95% e 50% de probabilidade são exibidos tanto para a métrica (primária ou secundária) quanto para a elevação.
Embora a métrica e a elevação sejam estimativas calculadas diretamente a partir dos dados coletados, os intervalos de credibilidade são resultado do mecanismo estatístico e representam nossa certeza quanto à estimativa. Por exemplo, podemos estimar as compras por usuário com uma variação de 0,05. Essa estimativa seria a mesma havendo 5 compras e 100 usuários ou 500 compras e 10.000 usuários, embora intuitivamente, a segunda estimativa possa parecer mais crível porque é baseada em mais evidências. Os intervalos de credibilidade efetivamente capturam o quanto a nossa estimativa é crível, dada a quantidade de evidências que coletamos.
Análise básica
A visão geral da versão do relatório indica se foi declarada uma vencedora para todos os usuários ou para um dos públicos primários.
Uma vencedora é declarada se forem atendidas as seguintes condições:
- Uma das variações tem a probabilidade de ser a melhor acima de 95% (o limite pode ser alterado usando-se a configuração do nível de significância da vencedora ).
- Decorreu-se a duração mínima do teste (o padrão de 2 semanas pode ser alterado usando-se as configurações de duração do teste ). Isso foi projetado para limitar o efeito das flutuações diárias nos resultados.
- A perda esperada para a variação é menor que 1%. A perda esperada pode ser interpretada como a elevação média que você perderia se implementasse uma variação, e ela acabasse não sendo a melhor. Essa métrica efetivamente pesa em quanta perda você incorreria (downlift, ou rebaixamento) pela probabilidade de ocorrer essa perda (probabilidade de ser a melhor).
Observação: a perda esperada é calculada pelo nosso mecanismo estatístico com a finalidade de declarar variações vencedoras, mas não é exibida no console do Experience OS.
Análise de métricas secundárias
Enquanto as vencedoras de cada teste são baseadas na métrica primária, a Dynamic Yield também mede métricas adicionais, chamadas de métricas secundárias. Você não precisa selecionar métricas secundárias antecipadamente. Elas são rastreadas automaticamente e ficam disponíveis em seus relatórios de experiências. Recomendamos verificar as métricas secundárias antes de aplicar a variação vencedora a todos os usuários, pelos seguintes motivos:
- Evitar equívocos (por exemplo, sua métrica primária é CTR, mas a variação vencedora pode reduzir as compras, receita ou AOV).
- Pode levar a insights interessantes (por exemplo, as compras por usuário caíram, mas o AOV aumentou, significando que a variação levou os usuários a comprarem menos produtos, porém mais caros e, em geral, gerou mais receita).
Para cada métrica secundária, observe a elevação e as pontuações da probabilidade de ser a melhor para ver como foi o desempenho de cada variação.
Após sua análise, você poderá determinar se deve veicular a variação vencedora a todo o seu tráfego ou ajustar sua alocação baseado no que aprendeu.
Análise de detalhamento de públicos
Uma boa maneira de se aprofundar é separar seus resultados por público. Isso pode ajudar a responder perguntas do tipo:
- Como o tráfego de diferentes origens se comporta no teste?
- Qual variação venceu no dispositivo móvel e qual venceu no computador?
- Qual variação foi a mais eficiente para novos usuários?
Recomendamos selecionar públicos significativos para seus negócios, bem como públicos com probabilidade de ter intenções diferentes.
Para cada público, observe a elevação e a probabilidade de ser a melhor para ver como foi o desempenho de cada variação.
Após sua análise, você poderá determinar se deve veicular a variação vencedora a todo o seu tráfego ou ajustar sua alocação baseado no que aprendeu.
Observação: o detalhamento de públicos considera os usuários como parte de um público somente se estavam nele no momento da primeira interação com a versão do teste. Se o usuário ingressar no público depois de interagir com a variação pela primeira vez, ele não será considerado parte daquele público no detalhamento de públicos.
Direcionamento preditivo
Às vezes, você poderá ver uma mensagem de que foi detectada uma oportunidade de personalização. Isso significa que há uma forma de aumentar a elevação ao veicular para um público específico uma variação perdedora, em vez de veicular a variação vencedora para todo o seu tráfego. Você pode analisar o relatório baseado nesse público específico para entender seu comportamento. Para mais detalhes, consulte direcionamento preditivo.
E se um teste não alcançar resultados significantes?
Os testes podem levar algum tempo para alcançar significância, dependendo de quanto tráfego eles recebem. No entanto, de vez em quando, você poderá observar um teste em execução há muito tempo não alcançar resultados estatisticamente significantes. Veja algumas ações recomendadas para garantir que você ganhe conhecimento com o teste:
- Explore métricas secundárias: um teste pode não alcançar resultados significativos na métrica primária, mas se uma das variações desempenhar significativamente melhor nas métricas secundárias, ela talvez ainda seja a ideal para veicular para todos os usuários.
- Explore o detalhamento de públicos: diferentes públicos preferem diferentes variações, e às vezes, duas variações parecem cancelar uma à outra se você observar o quadro geral, mas mostram algo diferente quando vamos mais a fundo. Por exemplo, se uma variação for melhor para dispositivos móveis e outra for melhor para computadores, pode não haver uma clara vencedora geral, mas detalhada por público, cada variação pode oferecer elevação.
-
Identifique as variações perdedoras: se estiver testando 3 ou mais variações, e uma delas tiver um desempenho muito ruim após decorrida a duração mínima do teste, você deve aplicar uma das variações líderes. Para determinar se uma variação perdedora alcançou significância como perdedora, use a seguinte fórmula: (1/número de variações)/10
Se houver 3 variações, uma PTBB de 3% ou menos é estatisticamente significante. Para 4 variações, exigem-se 2% ou menos. - Identifique as variações que vencem o grupo de controle: se o seu teste inclui um grupo de controle ou tem uma variação de base, você pode observar sua probabilidade de vencer o controle. Procure variações com pontuações estatisticamente significantes, que sejam superiores ao nível de significância definido para se declarar uma vencedora, e aja de acordo.
- Compare a métrica das variações usando intervalos de credibilidade: O valor real do desempenho de sua métrica fica dentro da faixa do intervalo de credibilidade. Compare as faixas das variações para identificar qual delas tem uma probabilidade maior de desempenhar melhor.