Gerar relatórios sobre experimentos

Há duas maneiras principais de gerar relatórios sobre experimentos:

  • Relatórios diretos de experimentos: consulte o recurso experiment para métricas. Essa opção fornece métricas para grupos de controle e de tratamento em uma única resposta, além de dados de comparação estatística, como uplift e valores p. Essa é a única maneira de gerar relatórios sobre experimentos intracampanha.
  • Relatórios de campanha: consulte o recurso campaign para métricas usando campaign.experiment_type para distinguir entre campanhas básicas e experimentais. Essa opção só está disponível para experimentos que usam campanhas de controle e de tratamento separadas, como os gerenciados pelo sistema.

Este guia se concentra principalmente nos relatórios diretos de experimentos, que são compatíveis com todos os tipos de experimentos que oferecem suporte a relatórios.

Relatórios diretos de experimentos

É possível consultar o recurso experiment diretamente para recuperar métricas de performance e comparações estatísticas entre os grupos de controle e de tratamento.

Métricas e significância estatística

Para métricas principais, como cliques, impressões, custo, conversões e valor de conversão, o recurso experiment fornece métricas de tratamento (por exemplo, metrics.clicks) e de controle (por exemplo, metrics.control_clicks) na mesma linha.

Ele também oferece campos para ajudar você a avaliar a significância estatística de qualquer diferença entre os grupos:

  • metrics.*_p_value: a probabilidade de que os resultados observados ocorram se o experimento não tiver efeito real na métrica. Um valor p menor indica maior significância estatística.
  • metrics.*_point_estimate: o Lift percentual estimado (positivo ou negativo) na métrica especificada para o grupo de tratamento em comparação com o grupo de controle. Juntos, eles descrevem um intervalo de confiança com um nível de confiança prescrito para a diferença estimada.margin_of_error A quantidade estimada é (tratamento / controle - 1). A estimativa pontual é o centro do intervalo de confiança.
  • metrics.*_margin_of_error: o raio do intervalo de confiança, que é centralizado em point_estimate. Ele é calculado para um nível de confiança prescrito, que depende do tipo de experimento.

Os seguintes campos de métricas principais são aceitos no recurso experiment, incluindo um valor de grupo de tratamento, um valor de grupo de controle e os campos de estatísticas listados anteriormente:

  • clicks
  • impressions
  • cost_micros
  • conversions
  • cost_per_conversion
  • conversion_value
  • conversion_value_per_cost

Para conversões, especificamente, os campos estatísticos estão disponíveis nos seguintes campos absolute_change, em vez de valores relativos:

Para construir consultas válidas ao recurso experiment, use a ferramenta Criador de consultas do Google Ads.

Exemplo de consulta

A consulta GAQL a seguir recupera as principais métricas de um experimento:

SELECT
  experiment.experiment_id,
  experiment.name,
  experiment.type,
  metrics.clicks,
  metrics.control_clicks,
  metrics.clicks_point_estimate,
  metrics.clicks_margin_of_error,
  metrics.clicks_p_value,
  metrics.conversions,
  metrics.control_conversions,
  metrics.conversions_absolute_change_point_estimate,
  metrics.conversions_absolute_change_margin_of_error,
  metrics.conversions_absolute_change_p_value
FROM experiment
WHERE experiment.experiment_id = EXPERIMENT_ID

Interpretar resultados

Você pode usar os campos "Valor-p", "Estimativa pontual" e "Margem de erro" para determinar se o experimento gerou resultados estatisticamente significativos. Por exemplo, se conversions_absolute_change_p_value estiver abaixo do limite escolhido (por exemplo, 0,05 para 95% de confiança) e conversions_absolute_change_point_estimate - conversions_absolute_change_margin_of_error for maior que zero, isso indica que o grupo de tratamento está tendo uma performance significativamente melhor do que o grupo de controle em termos de conversões.

Confira um snippet em Python que demonstra como avaliar resultados com base no valor p e nas estimativas de Lift:

Java

This example is not yet available in Java; you can take a look at the other languages.
    

C#

This example is not yet available in C#; you can take a look at the other languages.
    

PHP

This example is not yet available in PHP; you can take a look at the other languages.
    

Python

def evaluate_experiment(
    client: GoogleAdsClient, customer_id: str, row: GoogleAdsRow
) -> None:
    """Evaluates the performance of the experiment.

    Args:
        client: an initialized GoogleAdsClient instance.
        customer_id: a client customer ID.
        row: a GoogleAdsRow containing the experiment arm and metrics.
    """
    metrics = row.metrics
    experiment_resource_name = row.experiment.resource_name

    # 1. Evaluate conversion success as a primary success signal.
    # - Point Estimate: Represents the estimated average lift or difference in conversions.
    # - Margin of Error: Outlines the confidence interval bounds. Note that the margin_of_error provided by the API is calculated for a preset confidence level which is set based on the experiment type.
    # - Lower Bound: (Point Estimate - Margin of Error). If this value is above 0,
    #   we have statistical significance that performance has improved.
    conv_p_value = metrics.conversions_absolute_change_p_value
    conv_lift = metrics.conversions_absolute_change_point_estimate
    conv_error = metrics.conversions_absolute_change_margin_of_error
    conv_lower_bound = conv_lift - conv_error

    if conv_p_value <= P_VALUE_THRESHOLD:
        if conv_lower_bound > 0:
            print(
                "Significant Success: Conversions increased. Even at the lower"
                f" bound, the lift is {conv_lower_bound:.2f}. Promoting"
                " changes."
            )
            promote_experiment(client, customer_id, experiment_resource_name)
            return
        elif (conv_lift + conv_error) < 0:
            print(
                "Significant Decline: Even the upper bound"
                f" ({conv_lift + conv_error:.2f}) is below zero. Ending"
                " experiment."
            )
            end_experiment(client, customer_id, experiment_resource_name)
            return

    # 2. Evaluate click volume as a secondary signal.
    # This is helpful as an early indicator or for lower-volume accounts.
    click_p_value = metrics.clicks_p_value
    click_lift = metrics.clicks_point_estimate
    click_error = metrics.clicks_margin_of_error
    click_lower_bound = click_lift - click_error

    if click_p_value <= P_VALUE_THRESHOLD and click_lower_bound > 0:
        # We have a directional winner: high confidence in more traffic,
        # but not enough data to confirm conversion impact yet.
        print(
            f"Click volume is significantly up (+{click_lift*100:.1f}%). "
            "Graduating treatment for further manual analysis."
        )

        # Graduate if it's a separate campaign test.
        # This keeps the high-volume treatment running independently.
        # Intra-campaign experiments (like ADOPT_BROAD_MATCH_KEYWORDS and
        # ADOPT_AI_MAX) run directly within the base campaign, meaning there is only
        # a single campaign involved and no separate treatment campaign to graduate.
        # Therefore, graduation is not supported for intra-campaign experiments.
        experiment_type_name = row.experiment.type_.name
        if (
            experiment_type_name != "ADOPT_BROAD_MATCH_KEYWORDS"
            and experiment_type_name != "ADOPT_AI_MAX"
        ):
            graduate_experiment(client, customer_id, experiment_resource_name)
        else:
            print(
                "Intra-campaign trial detected: Graduation is not supported"
                " because there is only one campaign. Continuing to run to"
                " gather more conversion data."
            )
    else:
        # Both conversions and clicks are noisy.
        print(
            "Inconclusive: No significant lift in Conversions"
            f" (p={conv_p_value:.2f}) or Clicks (p={click_p_value:.2f})."
            f" Current estimated lift: {conv_lift:.2f} +/- {conv_error:.2f}."
            " Continue running."
        )
      

Ruby

This example is not yet available in Ruby; you can take a look at the other languages.
    

Perl

This example is not yet available in Perl; you can take a look at the other languages.
    

curl

Benefícios em relação aos relatórios de campanha

Os relatórios diretos de experimentos oferecem várias vantagens em relação à consulta separada de relatórios de campanhas:

  1. Métricas centralizadas: recupere métricas de controle e tratamento em uma única linha.
  2. Dados de confiança estatística: fornecem valores-p calculados, estimativas pontuais e margens de erro.
  3. Eficiência: elimina a necessidade de unir ou comparar manualmente os resultados de vários relatórios.
  4. Suporte na mesma campanha: é a única maneira de comparar o controle com o tratamento em experimentos na mesma campanha, em que o tráfego é dividido em uma única campanha.

Relatórios de campanhas

Para experimentos que criam campanhas de tratamento separadas (por exemplo, SEARCH_CUSTOM), é possível consultar o recurso campaign e usar campaign.experiment_type para identificar campanhas BASE (controle) e EXPERIMENT (tratamento). Essa abordagem é útil se você precisar segmentar métricas em um nível mais granular (por exemplo, por grupo de anúncios ou palavra-chave) ou visualizar metadados de campanha não disponíveis no recurso experiment. No entanto, é necessário fazer comparações de desempenho e cálculos estatísticos manualmente.

Não é possível usar relatórios no nível da campanha para comparar grupos em experimentos intracampanha, já que a divisão de tráfego acontece internamente em uma única campanha. A consulta de campaign para um experimento na mesma campanha retorna apenas totais agregados.

Práticas recomendadas

  • Selecione um nível de confiança adequado: definir um limite de valor p menor pode fornecer orientação direcional mais rápido, principalmente com orçamentos ou volumes de conversão menores. Um nível de confiança de 95% (valor p <= 0,05) é considerado o padrão acadêmico e pode ser melhor para resultados mais precisos em um período mais longo.
  • Faça experimentos por tempo suficiente: execute experimentos por pelo menos quatro semanas para considerar ciclos de performance semanais, atrasos na conversão e períodos de aprendizado.
  • Aguarde o período de evolução: para campanhas que usam lances automáticos ou testam novos recursos, desconsidere as primeiras uma ou duas semanas de dados para que os modelos de lances e os níveis de tráfego sejam reajustados à divisão.
  • Use divisões 50/50: uma divisão de tráfego 50/50 geralmente é a maneira mais rápida de alcançar resultados estatisticamente significativos.
  • Programe com antecedência: defina a data de início do experimento de 3 a 7 dias no futuro para dar tempo aos processos de revisão e aprovação de anúncios.
  • Só é possível realizar um experimento por campanha por vez.