Análise de teste A/B: o que Product Managers precisam saber

O poder de um teste A/B bem planejado, executado e analisado é gigantesco, podendo ser um dos grandes gatilhos para o crescimento e alcance de resultados em Produto.

Porém, se as métricas, trade-offs, riscos, diferenciais entre os grupos de teste e controle não estiverem bem definidos e corretamente avaliados, o perigo de uma decisão errada e muitas vezes custosa também é muito alto.

Neste artigo, você vai aprender um pouco sobre o que considero importante que Product Managers saibam antes, durante e depois de executar um teste A/B.

Planejamento: o que estruturar antes de começar

Planejar um teste A/B é essencial para garantir que os resultados, riscos e trade-offs possíveis com aquela novidade do produto sejam mapeados e não existam surpresas após uma possível implantação. Neste artigo vamos por partes montando uma documentação sobre o teste A/B que vale para qualquer situação.

Fugindo um pouco do tema de analytics, mas é essencial saber qual é o contexto e objetivo do teste A/B. Essas são as duas primeiras sessões do seu documento.

Contexto

Entender os porquês e o histórico daquele produto e seus resultados que levaram tanto a implementação desta alteração no produto quanto a necessidade do teste A/B.

Objetivo

Deixar claro o que o teste quer validar. Se existe a necessidade do teste e não simplesmente subir em produção a novidade, é porque ele possui um objetivo claro.

Com esses dois primeiros itens bem discriminados, começamos a entrar nos resultados e dados que devem ser avaliados pelo teste, aqui gosto de dividir da seguinte forma:

Indicadores primários: serão diretamente afetados pelo teste, geralmente são as métricas que levaram a toda essa necessidade de novidades no produto;

Indicadores secundários: aqui são indicadores que não são diretamente afetados pela novidade no produto, mas podem ser impactados pela alteração;

Guard-rails: indicadores extremamente sensíveis e core do seu produto que você não deseja afetar de maneira nenhuma no teste, mas que por questões de risco precisam ser monitorados. Importante salientar que os guard-rails não devem ser alterados, mesmo que melhorem, é um risco não entender como sua alteração afetou essas métricas.

Exemplo prático: métricas

Vamos colocar aqui um exemplo um pouco mais tangível. Digamos que como PM de um e-commerce, você e sua squad estão lidando com um problema de CSAT baixo na abertura de chamados de pós-venda.

Para tentar melhorar esse número, (feito o Discovery e etc.) uma possível solução é alterar a posição onde fica o botão de “Abrir Chamado”. Isso porque, muitas vezes, ele ficava escondido e necessitando de muita navegação para ser encontrado. Agora vamos testar, colocando-o ao lado do número de cada pedido no site.

Indicadores primários: CSAT da abertura de chamado (métrica que levou a execução desta mudança no produto);

Indicadores secundários: taxa de usuários que finaliza a tarefa de abrir chamado (como vamos alterar a posição do botão, talvez tenhamos mais curiosos clicando lá), MGM, retenção;

Guard-rails: conversão do site (mesmo distante, para evitar qualquer problema em uma métrica core, vamos monitorar também a conversão).

Ponto importante: é possível notar que não faço diferenciações entre métricas e produto e de negócio a serem levadas em conta. Na minha opinião, um teste A/B pode interferir em ambas e diferenciar pode acabar excluindo, ou até agregando viés.

Amostra necessária e tempo no ar

Ainda dentro do planejamento do teste, outro fator importante e talvez o mais estatístico do planejamento é a quantidade de data points no seu teste. Quanto maior a sua amostra, mais confiança nos dados; quanto mais confiança nos dados, menor vai ser a sua margem de erro.

Aqui temos uma calculadora super simples, na qual você informa qual a sua métrica atual, quanto de diferença espera obter com a mudança e qual o nível de confiança gostaria de ter.

Uma prática simples e que dá certo (na grande maioria dos casos) é pegar uma média de acessos na determinada página na qual vai ocorrer o teste nos próximos 30-90 dias, e assim, verificar a quantidade necessária de tempo para chegar na amostra.

Caso o número seja grande demais e necessite de muito tempo no ar, outra estratégia é reduzir o nível de confiança esperado. Quanto menor, menos amostra necessária.

Exemplo prático: amostra

Quero testar uma alteração na minha pesquisa de CSAT e sei que tenho em média 1000 envios/dia, para isso fiz uma alteração que deveria aumentar a minha taxa de resposta.

Na calculadora, conversão atual: 25%, quero verificar pelo menos 10% de aumento e com 95% de confiança. Preciso de 4753 pesquisas enviadas para o grupo de teste.

Se tenho 1000 envios/dia e meu teste A/B será de 50%, então cada dia 500 pessoas.

4753/500 = 9,5 dias para que a amostra esteja suficiente.

Execução: o que acompanhar durante o teste

Após o planejamento feito e o teste no ar, é importante ter em mente algumas coisas:

Testes requerem alterações no produto. Por isso, acompanhe taxa de erros, bugs, indicativos de que pode ter algo errado (você não vai querer invalidar uma hipótese por conta disso);

Tente segurar a ansiedade e não acompanhe os indicadores durante o teste. Devido a questões estatísticas de viéses e sazonalidades, ver um KPI primário ou secundário com valores estranhos não pode te enviesar. Espere o fim do teste!

Se for um ponto extremamente crítico e sensível, verifique de maneira esporádica seus guard-rails, mas apenas para fins de acalmar um stakeholder mais ansioso quanto a não impactar o negócio.

Pós-teste: analisando seus resultados e tomando decisões

O teste acabou, a amostra foi atingida com sucesso e já podemos tirar tudo do ar para analisar o que aconteceu. Lembrando que a sua amostra foi baseada no seu KPI primário, sabemos que para esse indicador os números devem estar já de acordo com a margem de confiança. Porém, para outros resultados, precisamos calcular a margem para evitar enganos.

Mas calma que isso não é nenhum bicho de sete cabeças! Uma maneira simples é aplicar a seguinte fórmula:

Calma, eu sei que isso assusta, mas agora o trabalho é apenas substituir essas letras por dados que você já possui.

p é o seu indicador (precisa ser sempre um valor entre 0 e 1, ou seja, um percentual, ok?);

z é o fator de confiança, ou seja qual o grau de confiança que você quer ter na sua informação (geralmente utilizamos 1.96, que remete a 95% de confiança, mas outros graus podem ser vistos na tabela da distribuição);

n é a sua amostra dentro de cada grupo, a quantidade de data points daquele indicador;

O sinal de + é porque, ao fim, você vai ter em quantos pontos percentuais o seu indicador está variando, igual nas pesquisas eleitorais que vemos na TV (minha conversão no grupo de teste foi de 50% variando 2 p.p. para mais ou para menos).

Para que um indicador seja estatisticamente diferente entre os grupos de Controle e de Teste, os intervalos não podem se cruzar. Caso se cruzem, o resultado é que não houve alteração em determinado indicador entre os grupos!

Concluindo

Sei que essa parte final é a que mais coloca medo em muita gente, mas calma, é só questão de prática, de entender o que os números dizem e tomar suas decisões.

E por falar nisso, com os resultados em mãos você vai estar pronto para levar essas informações para algum forúm e mostrar os trade-offs e resultados do seu teste. Fazer alterações no produto com esses inputs, é um diferencial. Saber o que vai acontecer no futuro quando uma alteração é feita é essencial.

E, se ficou alguma dúvida sobre esse assunto, pode sempre me acionar no LinkedIn. Vai ser um prazer ajudar! ?

Domine Product Analytics

Quer ir além das métricas com o seu produto? A PM3, escola referência em Produto no Brasil, te convida a conhecer o Curso de Product Analytics. Essa é sua chance de aprender a lidar com todos os tipos de dados de Produto, por meio de aulas aprofundadas com profissionais qualificados e cases reais de empresas brasileiras.

Você vai saber como acompanhar dados de forma eficiente para embasar as suas decisões e gerenciar stakeholders, conquistando mais confiança para sua carreira. E claro, você terá mais segurança para conversar com especialistas, orientando análises cada vez mais direcionadas.

Product Analytics: construindo uma estratégia de produto baseada em dados

Leia também: