Guia de teste de medição

O objetivo deste guia é orientar a execução de um teste independente da API Attribution Reporting do Sandbox de privacidade. Confira mais detalhes na Seção 12.

  • A medição dos resultados do grupo de controle e de tratamento nos designs experimentais 1 e 2 da CMA é abordada na orientação sobre testes de APIs de relevância, já que o objetivo desses experimentos é testar a eficácia de usar a API Protected Audience & Topics. Confira mais detalhes na Seção 11.

Antes de começar

Metas de avaliação e configuração do experimento proposta

Meta 1: determinar a eficácia da API Attribution Reporting para geração de relatórios

Propomos uma configuração A/A para medir o impacto na geração de relatórios

  • Esta proposta está de acordo com as orientações da CMA sobre a avaliação de métricas com base em conversões. Confira mais detalhes nas Seção 21 e Seção 12.
  • Preferimos esse método em vez do Modo A/B porque é possível testar a API Attribution Reporting (ARA) medindo simultaneamente as conversões no mesmo conjunto de impressões usando duas metodologias de medição diferentes (cookies de terceiros + dados de cookies de terceiros e ARA + dados de cookies de terceiros).
  • Um experimento A/A também isola o impacto da API Attribution Reporting na medição de conversões. Por exemplo, evita mudanças nas taxas de conversão devido à falta de cookies de terceiros.

Pontos de análise sugeridos

  • Escolha uma fração do tráfego grande o suficiente para ter resultados estatísticos significativos e que tenha cookies de terceiros e APIs do Sandbox de privacidade. O ideal é que todo o tráfego seja incluído, exceto o modo B (que desativa os cookies de terceiros).
    • Recomendamos excluir o modo B do experimento A/A, já que os cookies de terceiros não estarão disponíveis, e não será possível comparar os resultados da ARA com os de atribuição baseada em cookies de terceiros.
    • Se você quiser incluir o modo B, ative os relatórios de depuração para a fração de tráfego do modo B. Os relatórios de depuração ajudam a resolver problemas de configuração ou implementação.
  • Se você planeja testar em uma porção menor do tráfego, esperamos que você receba resultados de medição mais barulhentos do que o esperado. Recomendamos anotar em sua análise qual fração de tráfego foi usada e se você está relatando resultados com base em relatórios de ruído ou relatórios de depuração sem ruído.
    • Nos relatórios de resumo, os valores de resumo provavelmente serão menores, e o serviço de agregação adicionará ruídos da mesma distribuição, independentemente do valor do resumo.
  • Teste diferentes metodologias de medição nessa fração do tráfego.
    • Controle 1: usar metodologias atuais de medição (cookies de terceiros + dados de cookies de não terceiros)
    • (opcional) Controle 2: sem Sandbox de privacidade e sem cookies de terceiros, ou seja, apenas dados de cookies de terceiros.
      • Pode haver cookies de terceiros ainda disponíveis para alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias "Controle 2" ou "Tratamento"
    • Tratamento: APIs do Sandbox de privacidade e dados de cookies de terceiros
      • Pode haver cookies de terceiros ainda disponíveis para alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias "Controle 2" ou "Tratamento"

Métricas

  • Defina quais métricas fazem sentido para sua empresa medir os resultados e inclua uma descrição do que a métrica significa e como ela está sendo medida.
    • Sugerimos que você se concentre em dimensões e métricas importantes para seus anunciantes. Por exemplo, se o foco dos seus anunciantes são as conversões de compra, meça a contagem delas e o valor da compra.
  • As métricas com base em contagem ou soma (por exemplo, taxa de conversão) são mais ideais para se trabalhar, e não com custo por (por exemplo, custo por conversão). Para uma análise A/A, as métricas de custo podem ser totalmente derivadas da contagem ou da soma dos valores de conversão.
  • Especifique se as métricas são baseadas em relatórios de eventos, relatórios de resumo ou uma combinação dos dois relatórios (e se relatórios de depuração foram usados).
  • Consulte as tabelas de modelos sugeridos para orientações sobre como formatar feedback quantitativo.

Análise

  • Cobertura:
    • Você consegue fazer medições para um grupo semelhante de usuários em comparação com cookies de terceiros? Você percebe uma cobertura maior (por exemplo, do app para a Web)?
    • Você consegue medir as conversões (e dimensões ou métricas) mais importantes para você ou seus anunciantes?
  • Feedback quantitativo
    • Nos relatórios do anunciante, por exemplo, qual porcentagem das principais conversões você poderia informar para esse anunciante ou qual porcentagem de campanhas atinge a barra de qualidade de relatórios (deduzir uma barra de qualidade ajuda a ajustar campanhas com contagens de conversão pequenas)
    • Detalhado por anunciante, por exemplo, há alguns anunciantes que dependem mais ou menos de cookies de terceiros para gerar relatórios?
  • Outro feedback qualitativo:
    • Como a ARA afeta a complexidade da configuração de medição/atribuição dos anunciantes?
    • A ARA ajuda ou dificulta o foco dos anunciantes nas métricas e metas mais importantes?

Tabelas de modelos sugeridos para impacto nos relatórios

(Relatórios) Tabela 1:

Exemplo de tabela de modelo para relatar resultados experimentais para a CMA (retirado da página 18, mas os testadores precisam considerar quais métricas são mais significativas / viáveis de fornecer e adaptar a tabela conforme necessário).

Tratamento x Controle 1
Compara o estado final proposto com o estado atual
Tratamento x Controle 2
Compara o estado final proposto sem APIs do PS.
Controle 2 x Controle 1
Compara a medição de conversões com e sem cookies de terceiros, sem APIs do PS.
Metodologia de medição Compare a medição de conversões entre o tratamento (ARA com dados de cookies de terceiros) e o Controle 1 (cookies de terceiros e dados de cookies de terceiros) Compare a medição de conversões entre o tratamento (ARA com dados de cookies de terceiros) e o Controle 2 (somente dados de cookies de terceiros) Compare a medição de conversões do Controle 2 (somente dados de cookies de terceiros) com o Controle 1 (cookies de terceiros e dados de cookies de não terceiros)
Conversões por dólar Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
Total de conversões Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
Taxa de conversão Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
(adicione suas próprias métricas)
(Relatórios) Tabela 2:

Exemplo de tabela de modelo para gerar relatórios de estatísticas descritivas para métricas nos grupos de tratamento e controle (extraído da página 20, mas os testadores precisam considerar quais métricas são mais significativas / viáveis de fornecer e adaptar a tabela conforme necessário).

Métrica Tratamento
Medição de conversões com ARA e dados de cookies de terceiros que você usa
Controle 1
Medição de conversões com cookies de terceiros e dados de cookies de terceiros que você usa
Controle 2
Medição de conversões usando apenas dados de cookies de terceiros
Conversões por dólar Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25o e 75o percentis 25o e 75o percentis 25o e 75o percentis
Total de conversões Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25o e 75o percentis 25o e 75o percentis 25o e 75o percentis
Taxa de conversão Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25o e 75o percentis 25o e 75o percentis 25o e 75o percentis
(adicione suas próprias métricas)

Meta 2: determinar a eficácia da API Attribution Reporting para a otimização de lances

Sugerimos uma configuração A/B para medir o impacto na otimização de lances.

  • Para medir o impacto na otimização de lances, você vai precisar treinar dois modelos diferentes de aprendizado de máquina e usá-los em duas frações de tráfego: um modelo treinado com metodologias atuais de medição (cookies de terceiros + dados de cookies que não são de terceiros) a ser aplicado ao grupo de controle e outro treinado na API Attribution Reporting + dados que não sejam de cookies de terceiros a serem aplicados ao grupo de tratamento.
  • O treinamento de modelo precisa se basear no tráfego que o testador considerar necessário para maximizar o desempenho, mesmo que o grupo de tratamento seja uma fração menor do tráfego e haja sobreposição entre as populações de treinamento. Por exemplo, use o modelo de cookies de terceiros que está treinando em todo o tráfego e treine o modelo da ARA em todo o tráfego da ARA ativado para a meta 1.
    • Ao enviar resultados para a CMA, observe se há uma diferença significativa entre as frações de tráfego usadas para treinar modelos diferentes. Por exemplo, se os modelos baseados em cookies de terceiros forem treinados em 100% do tráfego, mas os modelos baseados na ARA forem treinados apenas em 1% do tráfego.
  • Se possível, o treinamento para os modelos de lances de tratamento e controle deve ocorrer pelo mesmo período.
  • Considere se você precisa treinar e atualizar continuamente os modelos de lances durante o experimento e, se fizer isso, se deve treinar com o máximo de tráfego possível ou apenas com o tráfego dos grupos de tratamento e controle.
  • Os diferentes modelos devem ser usados em frações de tráfego separadas como um experimento A/B. Para randomização e atribuição de usuários nos grupos de tratamento e controle, recomendamos usar grupos de navegadores rotulados pelo Chrome (modo A) ou executar seu próprio experimento com conjuntos aleatórios de navegadores. Não recomendamos usar o modo B, já que a falta de cookies de terceiros dificulta a geração de relatórios sobre métricas com base em conversões.
    • Os grupos de navegadores facilitados pelo Chrome excluem algumas instâncias, como usuários do Chrome Enterprise, onde seus próprios conjuntos aleatórios de navegadores não podem excluir essas instâncias. Portanto, execute seu experimento somente em grupos do Modo A ou apenas em grupos que não são do Modo A/Modo B para evitar comparar as métricas coletadas em grupos facilitados pelo Chrome com aquelas fora dos grupos facilitados pelo Chrome.
    • Se você não estiver usando grupos de navegadores rotulados facilitados pelo Chrome (por exemplo, fazendo um experimento em outro tráfego):
      • Garantir que a divisão de tratamento e controle dos usuários seja aleatória e imparcial. Independentemente da configuração do grupo experimental, avalie as características dos grupos de tratamento e de controle para garantir que os grupos de tratamento e de controle sejam comparáveis. Consulte a Seção 15.
      • Verifique se as características do usuário e as configurações da campanha de grupos de tratamento e controle são as mesmas (por exemplo, use áreas geográficas semelhantes nos grupos de tratamento e controle). Consulte a Seção 28.
        • Exemplos específicos incluem: verificar se tipos de conversão semelhantes estão sendo medidos usando a mesma janela de atribuição e a mesma lógica de atribuição, se as campanhas segmentam públicos-alvo semelhantes, grupos de interesse e regiões geográficas e usam textos e formatos de anúncio semelhantes.
      • Garanta que o tamanho inicial da população para os grupos de tratamento e controle seja grande o suficiente para ter flexibilidade para lances e experimentos.
    • Ao usar grupos de navegadores rotulados facilitados pelo Chrome (modo A), a ordem aleatória das instâncias para grupos é feita pelo Chrome. Como antes, é recomendável verificar se a randomização resulta em grupos imparciais / comparáveis para seus propósitos.

Pontos de análise sugeridos

  • Recomendamos definir os grupos de controle e de tratamento e usar um modelo de aprendizado de máquina diferente para a otimização de lances em cada grupo:
    • Controle 1: use o modelo de otimização de lances treinado com as metodologias atuais de medição (cookies de terceiros + dados de cookies de terceiros)
    • (Opcional) Controle 2: use o modelo de otimização de lances treinado sem Sandbox de privacidade e sem cookies de terceiros, ou seja, apenas dados de cookies de terceiros.
      • É possível que alguns cookies de terceiros ainda estejam disponíveis em alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias "Controle 2" ou "Tratamento".
    • Tratamento: use o modelo de otimização de lances treinado na API Attribution Reporting e em dados de cookies de terceiros.
      • É possível que alguns cookies de terceiros ainda estejam disponíveis em alguns sites. Para resultados mais precisos, não use esses cookies de terceiros para medição nas metodologias "Controle 2" ou "Tratamento".

Métricas

  • Defina quais métricas fazem sentido para sua empresa medir os resultados e inclua uma descrição do que a métrica significa e como ela está sendo medida.
    • Por exemplo, a métrica significativa pode ser gasto (receita do editor), que se alinha com as orientações da CMA para entender o impacto da descontinuação dos cookies de terceiros em "Receitas por impressão". Consulte a Seção 19 para saber mais.
  • Ao gerar relatórios sobre métricas com base em conversão, use a mesma metodologia de medição para cada grupo a fim de evitar testes multivariáveis (teste o impacto na otimização e na geração de relatórios em um experimento). Consulte as tabelas de modelos sugeridos para orientações sobre como formatar feedback quantitativo.
  • Considere outras maneiras de coletar métricas sobre o impacto da otimização de lances. Por exemplo, usando a simulação de lances. Há alguma métrica simulada que seria útil para entender o impacto dos cookies de terceiros e da ARA nos seus modelos de lances?
  • Especifique se as métricas são baseadas em relatórios de eventos, relatórios de resumo ou uma combinação dos dois relatórios (e se relatórios de depuração foram usados).

Análise

  • Cobertura:
    • Você consegue fazer medições para um grupo semelhante de usuários em comparação com cookies de terceiros? Você percebe alguma mudança na cobertura (por exemplo, do app para a Web)?
    • Você consegue medir as conversões (e dimensões/métricas) mais importantes para você ou seus anunciantes?
  • Como as diferenças entre os grupos afetariam o seguinte:
    • Relatórios do anunciante, por exemplo, a porcentagem de conversões importantes que você poderia informar.
    • Treinamento e otimização, por exemplo, simulam o impacto de diferentes dados de conversão no desempenho do modelo.
  • Outro feedback qualitativo:
    • Como a ARA afeta a complexidade da configuração de otimização de lances dos anunciantes?
    • A ARA ajuda ou impede que os anunciantes se concentrem nas métricas e metas que mais importam para eles?

Tabelas de modelos sugeridos para impacto dos lances

(Lances) Tabela 1:

Exemplo de tabela de modelo de resultados experimentais que os participantes do mercado precisam enviar à CMA (extraído da página 18, mas os testadores precisam considerar quais métricas são mais significativas / viáveis de fornecer e adaptar a tabela conforme necessário).

Tratamento x Controle 1
Compara o estado final proposto com o estado atual
Tratamento x Controle 2
Compara o estado final proposto sem APIs do PS.
Controle 2 x Controle 1
Compara a otimização de lances com e sem cookies de terceiros, sem APIs do PS.
Metodologia de medição Para evitar testes multivariáveis, use dados de cookies de terceiros e de terceiros para medir as métricas com base em conversão para os dois grupos em cada experimento.
Receitas por impressão Efeito Efeito Efeito
Erro padrão Erro padrão Erro padrão
Intervalo de confiança de 95% Intervalo de confiança de 95% Intervalo de confiança de 95%
(Adicione suas próprias métricas)
(Lances) Tabela 2:

Exemplo de tabela de modelo para gerar relatórios de estatísticas descritivas para métricas nos grupos de tratamento e controle (extraído da página 20, mas os testadores precisam considerar quais métricas são mais significativas / viáveis de fornecer e adaptar a tabela conforme necessário).

Tratamento
Otimização de lances usando ARA e dados de cookies de terceiros que você usa
Controle 1
Otimização de lances com cookies de terceiros e dados de cookies de terceiros que você usa
Controle 2
Otimização de lances usando somente dados de cookies de terceiros
Metodologia de medição Para evitar testes multivariáveis, use dados de cookies de terceiros e de terceiros para medir as métricas com base em conversão em todos os grupos.
Receitas por impressão Média Média Média
Desvio padrão Desvio padrão Desvio padrão
25o e 75o percentis 25o e 75o percentis 25o e 75o percentis
(adicione suas próprias métricas)

Meta 3: teste de carga do serviço de agregação

Consulte Framework de teste de carga de serviço de agregação.