Há duas maneiras principais de gerar relatórios sobre experimentos:
- Relatórios diretos de experimentos: consulte o recurso
experimentpara métricas. Essa opção fornece métricas para grupos de controle e de tratamento em uma única resposta, além de dados de comparação estatística, como uplift e valores p. Essa é a única maneira de gerar relatórios sobre experimentos intracampanha. - Relatórios de campanha: consulte o recurso
campaignpara métricas usandocampaign.experiment_typepara distinguir entre campanhas básicas e experimentais. Essa opção só está disponível para experimentos que usam campanhas de controle e de tratamento separadas, como os gerenciados pelo sistema.
Este guia se concentra principalmente nos relatórios diretos de experimentos, que são compatíveis com todos os tipos de experimentos que oferecem suporte a relatórios.
Relatórios diretos de experimentos
É possível consultar o recurso experiment diretamente para recuperar métricas de performance e comparações estatísticas entre os grupos de controle e de tratamento.
Métricas e significância estatística
Para métricas principais, como cliques, impressões, custo, conversões e valor de conversão, o recurso experiment fornece métricas de tratamento (por exemplo, metrics.clicks) e de controle (por exemplo, metrics.control_clicks) na mesma linha.
Ele também oferece campos para ajudar você a avaliar a significância estatística de qualquer diferença entre os grupos:
metrics.*_p_value: a probabilidade de que os resultados observados ocorram se o experimento não tiver efeito real na métrica. Um valor p menor indica maior significância estatística.metrics.*_point_estimate: o Lift percentual estimado (positivo ou negativo) na métrica especificada para o grupo de tratamento em comparação com o grupo de controle. Juntos, eles descrevem um intervalo de confiança com um nível de confiança prescrito para a diferença estimada.margin_of_errorA quantidade estimada é (tratamento / controle - 1). A estimativa pontual é o centro do intervalo de confiança.metrics.*_margin_of_error: o raio do intervalo de confiança, que é centralizado empoint_estimate. Ele é calculado para um nível de confiança prescrito, que depende do tipo de experimento.
Os seguintes campos de métricas principais são aceitos no recurso experiment, incluindo um valor de grupo de tratamento, um valor de grupo de controle e os campos de estatísticas listados anteriormente:
clicksimpressionscost_microsconversionscost_per_conversionconversion_valueconversion_value_per_cost
Para conversões, especificamente, os campos estatísticos estão disponíveis nos seguintes campos absolute_change, em vez de valores relativos:
metrics.conversions_absolute_change_p_value: o valor p da hipótese nula de que o experimento não tem efeito na mudança absoluta das conversões. Varia de 0 a 1.metrics.conversions_absolute_change_point_estimate: a estimativa pontual ao estimar o efeito do experimento na mudança absoluta das conversões.metrics.conversions_absolute_change_margin_of_error: a margem de erro ao estimar o efeito do experimento na mudança absoluta das conversões.
Para construir consultas válidas ao recurso experiment, use a ferramenta Criador de consultas do Google Ads.
Exemplo de consulta
A consulta GAQL a seguir recupera as principais métricas de um experimento:
SELECT
experiment.experiment_id,
experiment.name,
experiment.type,
metrics.clicks,
metrics.control_clicks,
metrics.clicks_point_estimate,
metrics.clicks_margin_of_error,
metrics.clicks_p_value,
metrics.conversions,
metrics.control_conversions,
metrics.conversions_absolute_change_point_estimate,
metrics.conversions_absolute_change_margin_of_error,
metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID
Interpretar resultados
Você pode usar os campos "Valor-p", "Estimativa pontual" e "Margem de erro" para determinar se o experimento gerou resultados estatisticamente significativos. Por exemplo, se conversions_absolute_change_p_value estiver abaixo do limite escolhido (por exemplo, 0,05 para 95% de confiança) e conversions_absolute_change_point_estimate - conversions_absolute_change_margin_of_error for maior que zero, isso indica que o grupo de tratamento está tendo uma performance significativamente melhor do que o grupo de controle em termos de conversões.
Confira um snippet em Python que demonstra como avaliar resultados com base no valor p e nas estimativas de Lift:
Java
This example is not yet available in Java; you can take a look at the other languages.
C#
This example is not yet available in C#; you can take a look at the other languages.
PHP
This example is not yet available in PHP; you can take a look at the other languages.
Python
def evaluate_experiment( client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow ) -> None: """Evaluates the performance of the experiment. Args: client: an initialized GoogleAdsClient instance. customer_id: a client customer ID. row: a GoogleAdsRow containing the experiment arm and metrics. """ metrics = row.metrics experiment_resource_name = row.experiment.resource_name # 1. Evaluate conversion success as a primary success signal. # - Point Estimate: Represents the estimated average lift or difference in conversions. # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type. # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0, # we have statistical significance that performance has improved. conv_p_value = metrics.conversions_absolute_change_p_value conv_lift = metrics.conversions_absolute_change_point_estimate conv_error = metrics.conversions_absolute_change_margin_of_error conv_lower_bound = conv_lift - conv_error if conv_p_value <= P_VALUE_THRESHOLD: if conv_lower_bound > 0: print( "Significant Success: Conversions increased. Even at the lower" f" bound, the lift is {conv_lower_bound:.2f}. Promoting" " changes." ) promote_experiment(client, customer_id, experiment_resource_name) return elif (conv_lift + conv_error) < 0: print( "Significant Decline: Even the upper bound" f" ({conv_lift + conv_error:.2f}) is below zero. Ending" " experiment." ) end_experiment(client, customer_id, experiment_resource_name) return # 2. Evaluate click volume as a secondary signal. # This is helpful as an early indicator or for lower-volume accounts. click_p_value = metrics.clicks_p_value click_lift = metrics.clicks_point_estimate click_error = metrics.clicks_margin_of_error click_lower_bound = click_lift - click_error if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0: # We have a directional winner: high confidence in more traffic, # but not enough data to confirm conversion impact yet. print( f"Click volume is significantly up (+{click_lift*100:.1f}%). " "Graduating treatment for further manual analysis." ) # Graduate if it's a separate campaign test. # This keeps the high-volume treatment running independently. # Intra-campaign experiments (like ADOPT_BROAD_MATCH_KEYWORDS and # ADOPT_AI_MAX) run directly within the base campaign, meaning there is only # a single campaign involved and no separate treatment campaign to graduate. # Therefore, graduation is not supported for intra-campaign experiments. experiment_type_name = row.experiment.type_.name if ( experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS" and experiment_type_name != "ADOPT_AI_MAX" ): graduate_experiment(client, customer_id, experiment_resource_name) else: print( "Intra-campaign trial detected: Graduation is not supported" " because there is only one campaign. Continuing to run to" " gather more conversion data." ) else: # Both conversions and clicks are noisy. print( "Inconclusive: No significant lift in Conversions" f" (p={conv_p_value:.2f}) or Clicks (p={click_p_value:.2f})." f" Current estimated lift: {conv_lift:.2f} +/- {conv_error:.2f}." " Continue running." )
Ruby
This example is not yet available in Ruby; you can take a look at the other languages.
Perl
This example is not yet available in Perl; you can take a look at the other languages.
curl
Benefícios em relação aos relatórios de campanha
Os relatórios diretos de experimentos oferecem várias vantagens em relação à consulta separada de relatórios de campanhas:
- Métricas centralizadas: recupere métricas de controle e tratamento em uma única linha.
- Dados de confiança estatística: fornecem valores-p calculados, estimativas pontuais e margens de erro.
- Eficiência: elimina a necessidade de unir ou comparar manualmente os resultados de vários relatórios.
- Suporte na mesma campanha: é a única maneira de comparar o controle com o tratamento em experimentos na mesma campanha, em que o tráfego é dividido em uma única campanha.
Relatórios de campanhas
Para experimentos que criam campanhas de tratamento separadas (por exemplo,
SEARCH_CUSTOM), é possível consultar o recurso campaign e usar
campaign.experiment_type para identificar campanhas BASE (controle) e EXPERIMENT
(tratamento). Essa abordagem é útil se você precisar segmentar métricas em um nível mais granular (por exemplo, por grupo de anúncios ou palavra-chave) ou visualizar metadados de campanha não disponíveis no recurso experiment. No entanto, é necessário fazer comparações de desempenho e cálculos estatísticos manualmente.
Não é possível usar relatórios no nível da campanha para comparar grupos em experimentos
intracampanha, já que a divisão de tráfego acontece internamente em uma única campanha.
A consulta de campaign para um experimento na mesma campanha retorna apenas totais agregados.
Práticas recomendadas
- Selecione um nível de confiança adequado: definir um limite de valor p menor pode fornecer orientação direcional mais rápido, principalmente com orçamentos ou volumes de conversão menores. Um nível de confiança de 95% (valor p <= 0,05) é considerado o padrão acadêmico e pode ser melhor para resultados mais precisos em um período mais longo.
- Faça experimentos por tempo suficiente: execute experimentos por pelo menos quatro semanas para considerar ciclos de performance semanais, atrasos na conversão e períodos de aprendizado.
- Aguarde o período de evolução: para campanhas que usam lances automáticos ou testam novos recursos, desconsidere as primeiras uma ou duas semanas de dados para que os modelos de lances e os níveis de tráfego sejam reajustados à divisão.
- Use divisões 50/50: uma divisão de tráfego 50/50 geralmente é a maneira mais rápida de alcançar resultados estatisticamente significativos.
- Programe com antecedência: defina a data de início do experimento de 3 a 7 dias no futuro para dar tempo aos processos de revisão e aprovação de anúncios.
- Só é possível realizar um experimento por campanha por vez.