Os testes A/B são experiências que usam o método de alocação de teste A/B e possuem pelo menos duas variações ativas. Você pode ver um relatório dessas experiências clicando no ícone em qualquer que liste campanhas ou experiências, ou através do botão A/B Tests no painel.
Os relatórios permitem que você avalie os resultados de um teste e tire conclusões, dando a você a flexibilidade de descobrir informações adicionais, aplicar segmentação e explorar métricas secundárias.
Observação: Nós lançamos uma nova geração de relatórios de testes A/B no dia 17 de dezembro de 2023. Este artigo descreve a funcionalidade dos novos relatórios. Os novos relatórios estão disponíveis para todos os testes realizados após o dia 1º de julho de 2023, enquanto os testes realizados antes dessa data permanecem disponíveis com os relatórios anteriores.
Selecionando uma versão de teste
Por padrão, os relatórios apresentam os resultados da versão mais recente ou atual do teste. Você pode selecionar uma versão anterior do teste no menu suspenso de versões:
Um resumo dos resultados para a seção selecionada é mostrado no painel Summary:
O resumo inclui:
- As datas em que a versão do teste selecionada foi executada.
- Os resultados do teste sobre o tráfego geral. Uma versão é destacada se tiver sido declarada como vencedora.
- Os resultados do teste em públicos primários. Uma versão é destacada se tiver sido declarada vencedora para aquele público.
- Oportunidades de personalização detectadas pelo Direcionamento Preditivo.
Comparando o desempenho das variações
As visualizações do relatório permitem que você compare o desempenho de variações individuais.
A tabela de desempenho de variações
A tabela mostra os resultados de testes por variação e métrica, com resultados baseados na métrica primária por padrão. Clique no botão de métricas para adicionar métricas secundárias à sua análise. Elas são apresentadas em uma tabela adicional sob a tabela da métrica primária.
A estrutura de cada tabela é semelhante entre as métricas primárias e secundárias, com uma linha por variação e os campos descritos na tabela a seguir:
Campo | Definição |
Normalization unit Exemplos: Users, Sessions |
Dependendo da configuração de aderência, essa é a unidade com a qual a métrica escolhida é normalizada:
Essa contagem é localizada com o mesmo nome em cada variação. |
Metric totals Exemplos: Purchases, Revenue |
Se a métrica selecionada for um evento ou meta, como compras, esse será o número de compras atribuídas à variação. Se a métrica selecionada for o valor de um evento, como a renda de uma compra, esse será o valor total do evento que será atribuído à variação. Outras métricas comuns não relacionadas a eventos são cliques e visualizações de página. |
Normalized metric Exemplos: Purchases/User, Revenue/User |
O total da métrica dividido pela unidade de normalização do teste. Essa métrica permite que você compare o desempenho de diferentes variações com razoabilidade, normalizando os resultados pela exposição real que eles receberam. |
Uplift | A proporção entre a métrica normalizada de cada variação e os grupos de controle, menos 1. Essa métrica só aparece se houver um grupo de controle ou se uma variação de base tiver sido selecionada. Você pode escolher qual variação usar como base acima da tabela Variation Performance. |
Probability to Be Best |
a chance de uma variação superar o desempenho de todas as outras variações a do teste. Esse é um cálculo que leva em conta a diferença de desempenho de cada variação e a confiabilidade estatística que temos nos resultados. Essa é a métrica mais aplicável dos seus resultados de testes A/B, pois ela define quando os resultados são conclusivos e você pode aplicar a vencedora a todo o tráfego. Se uma variação for declarada como vencedora, um troféu aparecerá ao lado da seção Probability to be Best, e a seção Uplift ficará com a cor verde ou vermelha. uma variação é declarada vencedora se:
|
Probability to Beat Control | A chance de uma variação ter um desempenho superior à base. A probabilidade de vencer o controle é equivalente à probabilidade de ser a melhor, mas cada variação compete somente contra a base, ao invés de competir contra todas as outras variações. Esse parâmetro é útil em testes com mais de duas variações, em que múltiplas variações podem ter um desempenho superior ao controle, mas com um desempenho semelhante entre si. Isso significa que nenhuma variação isolada tem uma probabilidade maior de ser a melhor, mas cada uma pode ter uma alta probabilidade de vencer o controle. |
Credible intervals |
Um intervalo de credibilidade é uma faixa que captura o valor real provável de uma métrica com uma determinada probabilidade. Os intervalos de credibilidade são a contraparte bayesiana para intervalos de confiança frequentistas, porém, diferentemente destes, aqueles podem ser interpretados pelo valor nominal: um intervalo de credibilidade de 95% contém um valor real provável da métrica com 95% de probabilidade. Intervalos de credibilidade de 95% e 50% de credibilidade estão disponíveis tanto para a métrica (primária ou secundária) quanto para o uplift. |
Selecionando uma variação de base
Se um teste não tiver um grupo de controle padrão, mas você quiser usar uma variação específica como base para os cálculos de uplift e probabilidade para vencer o controle, você pode selecionar uma variação a partir do menu suspenso de base.
Trabalhando com intervalos de credibilidade
Por padrão, os relatórios mostram intervalos de credibilidade em texto, representando o intervalo de 95% de credibilidade tanto para métricas normalizadas quanto para o uplift.
Use o botão no menu suspenso Additional Options para mostrar intervalos de credibilidade gráficos.
Os intervalos gráficos são uma ótima forma de comparar visualmente as variações e, além dos intervalos de 95% (linha horizontal fina), eles também mostram intervalos de 50% (linha horizontal grossa)
O intervalo para a linha de base selecionada fica na cor cinza com linhas pontilhadas, para facilitar a comparação com outras variações (note que o intervalo do uplift da linha de base não existe).
Passar o mouse sobre qualquer intervalo faz com que seja mostrada uma caixa de texto com os valores do intervalo.
Gráfico sobre o tempo
Clique no botão Over Time Data na tabela Variation Performance para mostrar resultados diários para a métrica selecionada para cada variação.
Você pode fazer um gráfico dos valores totais absolutos ou normalizados da métrica selecionada nas formas de resultados diários ou cumulativos.
Enquanto os resultados diários são úteis para avaliar oscilações diárias, os resultados cumulativos são úteis para ver como a estimativa da métrica normalizada converge com o tempo à medida que mais dados são coletados.
Trabalhando com intervalos de tempo
Por padrão, os relatórios mostram todos os dados para a versão selecionada (o botão de intervalo de tempo mostra Overall). Opcionalmente, clique no botão de intervalo de tempo e filtre por um intervalo específico na versão selecionada:
Note que você pode selecionar um período de tempo englobando várias versões, ou seja, que combine dados de várias versões. A intenção é garantir que as variações sejam comparáveis entre si.
Comportamento do intervalo de tempo com aderência do usuário
Quando você filtra por um intervalo que não inclui o início do teste, todos os usuários que foram expostos ao teste antes do intervalo de tempo são excluídos dos resultados, incluindo suas atividades no intervalo selecionado.
A intenção é garantir que as variações sejam comparáveis e evitar problemas de viés de sobrevivência, que é uma forma de viés de seleção em que a população de usuários observados no intervalo selecionado poderia ser influenciada por sua exposição ao teste antes do intervalo de tempo.
Por exemplo, se os dados da versão completa incluem dois usuários e duas compras:
Selecionar o intervalo de tempo a seguir excluiria o usuário 1 e sua compra, pois sua primeira exposição ao teste ocorreu antes do intervalo selecionado, por isso, sua compra poderia ser influenciada por algo além do intervalo selecionado.
Uma aplicação conveniente desse comportamento é que, para qualquer intervalo de tempo selecionado, os resultados de testes são baseados em usuários completamente novos, que viram sua campanha pela primeira vez naquele intervalo de tempo. Isso pode ser útil, por exemplo, para excluir o efeito de uma promoção que aconteceu na semana 1 de um teste que sendo executado há várias semanas.
Embora a filtragem de intervalos específicos possa ser útil dependendo do contexto, nós recomendamos fortemente que você, em geral:
- Tire conclusões usando todos os dados coletados.
- Use subconjuntos dos dados totais que contenham semanas completas.
Comportamento de intervalos com aderência de sessão
O comportamento descrito no capítulo anterior se aplica de forma conceitual, mas não prática, a testes com aderência de sessão. Isso ocorre porque, para o propósito de um relatório de teste A/B, a sessão acaba à meia-noite, logo, qualquer data individual de qualquer intervalo selecionado contém sessões completas e eventos atribuídos completos.
Hoje (dado em tempo real)
Ao selecionar Today no filtro de intervalo de tempo, você pode acessar uma versão simplificada do relatório, que mostra toda a atividade para o dia atual em tempo real. Note que essa visão serve para monitorar dados ao vivo e corrigir o fornecimento de um teste, e não inclui funcionalidades de relatório como divisão de públicos ou tratamento de pontos fora da curva. Note que, devido ao número possivelmente alto de dados ao vivo sendo manipulados, pode levar mais tempo para preencher esse gráfico em relação a intervalos passados.
Detalhamento de públicos
Use o menu suspenso de detalhamento de públicos para segmentar resultados de testes por públicos.
Após selecionar um público na lista, todas as tabelas são divididas por público e indicam a porcentagem do total de usuários ou sessões que pertencem ao público.
Toda a funcionalidade da tabela disponível sem o detalhamento de público também existe para o detalhamento de público, com exceção dos dados pelo tempo, que estão disponíveis apenas para o tráfego geral.
Observação: O detalhamento de público considera que os usuários só fazem parte de um público se estiverem nele no momento de sua primeira interação com a versão do teste. Se um usuário entra no público após interagir com a variação pela primeira vez, ele não é considerado parte daquele público no detalhamento de públicos.
Tratamento de pontos fora da curva
Os pontos fora da curva são observações anormais que, embora sejam raras, podem ter peso suficiente para distorcer os resultados de um teste. A Dynamic Yield detecta e lida com dois tipos de pontos fora da curva:
- Valores extremos de eventos: aplicado a cada evento ou objetivo com um valor.
- Usuários com um número extremo de eventos: aplicado a cada evento ou objetivo (a partir do dia 1º de julho de 2023).
Se a Dynamic Yield detectar que o valor de um evento baseado em receita ou o número de eventos realizados por um usuário específico excede um limite, o evento ou o usuário é rotulado como ponto fora da curva e é substituído ou excluído dos resultados, dependendo do tipo de ponto. Saiba mais sobre nosso tratamento de pontos fora da curva.
Por padrão, os relatórios de testes A/B excluem pontos fora da curva, mas você pode inclui-los desativando a opção no menu suspenso Additional Options .
Os dois tipos de pontos fora da curva — valores extremos de eventos e usuários com um número extremo de eventos — são excluídos pelo mesmo seletor. Todos os números do relatório são afetados por esse seletor, com exceção do Direcionamento Preditivo, que sempre calcula resultados sem pontos fora da curva.
Você pode exportar um registro de todos os eventos com valores que foram marcados como pontos fora da curva para um teste específico e como seus valores foram tratados usando a exportação de registros de eventos de receita, descrita na próxima seção
Exportando dados de relatórios
Você pode exportar os dados para um arquivo CSV para analisá-los mais profundamente em uma plataforma diferente, ou compartilhá-los externamente, clicando em Export.
Estão disponíveis duas opções de exportação:
- Full report (relatório completo): uma versão em CSV do relatório, incluindo todas as métricas secundárias e o detalhamento de públicos (caso se aplique).
- Revenue event log (registro de receita do evento): um registro que inclui todos os eventos com o valor do evento (como Compra), incluindo informações sobre marcações de pontos fora da curva, seja devido a um valor extremo ou porque o usuário que realizou a ação foi marcado como tendo um número extremo de eventos.
Frequência de atualizações
O relatório de teste A/B é calculado todas as noites, pouco antes da meia-noite, dependendo do fuso horário selecionado na seção General Settings. Os resultados do dia anterior devem estar disponíveis às 9 h da manhã no fuso horário selecionado.
Disponibilidade
O relatório de teste A/B está disponível se:
- Sua experiência usa o método de alocação de teste A/B e possui pelo menos duas variações ativas.
- A experiência estava ativa após o dia 1º de julho de 2023. Os testes concluídos antes dessa data permanecem disponíveis com os relatórios anteriores.
Perguntas frequentes
Quais visualizações de página contam na métrica de visualizações de página (pageviews)?
A métrica de visualizações de página conta aquelas atribuíveis a uma dada variação, ou seja, a que ocorreu depois que a variação foi entregue ao usuário.
Como é calculado o uplift?
O uplift compara o desempenho de cada variação com o grupo de controle. Ele só é relevante se um grupo de controle ou uma variação de base estiver definida. O cálculo é o seguinte: (métrica normalizada pela variação / grupo de controle ou métrica normalizada de base) -1. Por exemplo, se a receita/usuário de uma variação for de $5, mas somente de $4 no grupo de controle, o cálculo será o seguinte: (5/4) -1 = 0,25, ou um uplift de 25%.
Por que não vejo informações sobre cliques ou CTR?
A métrica CTR só aparece em tipos de campanha que renderizam HTML (como Recommendations, Dynamic Content e Overlay). Isso ocorre porque a CTR mede os cliques no elemento HTML que é renderizado. Portanto, os tipos de campanha que não renderizam nenhum HTML (como Custom Code ou Visual Edit) não monitoram cliques. Se quiser medir cliques em um desses tipos de campanha, é possível disparar um evento personalizado clicando no elemento do qual você deseja rastrear os cliques.
Em campanhas multitoque, os cliques são monitorados apenas nos pontos de contato (que podem ter um elemento de HTML) e não na variação superior.
Por que estão faltando usuários quando comparo o detalhamento de públicos com a população geral?
Nos relatórios de testes A/B, quando você divide os resultados por público, pode perceber que alguns usuários não foram segmentados em nenhum público. Isso ocorre os usuários devem fazer parte de um público selecionado no momento de sua primeira interação com a variação. O que pode causar isso:
- A variação redireciona o usuário para outra página imediatamente após ser veiculada. Isso pode ocasionar a ausência de dados no detalhamento de públicos, até 100% dos dados. Saiba como evitar isso usando este guia para testes de divisão/redirecionamento.
- Os usuários saíram da seção ou da página imediatamente após receberem a variação.
- Em públicos por tipo de dispositivo (device type): se o dispositivo for desconhecido (não é um smartphone, tablet ou desktop).
Observação: os dados "All Users" incluem dados de todos os usuários, mesmo que seus dados não apareçam no detalhamento de públicos.