Entender o ruído nos relatórios de resumo

Saiba o que é ruído, onde ele é adicionado e como ele afeta suas medições.

Os relatórios de resumo são o resultado da agregação de relatórios agregáveis. Quando os relatórios agregáveis são agrupados por um coletor e processados pelo serviço de agregação, o ruído (uma quantidade aleatória de dados) é adicionado aos relatórios de resumo resultantes. Ruídos são adicionados para proteger a privacidade do usuário. O objetivo desse mecanismo é ter um framework que ofereça suporte à medição particular diferenciada.

O ruído é adicionado ao relatório de resumo final.

Introdução ao ruído nos relatórios de resumo

Embora a adição de ruídos não faça parte da medição de anúncios atualmente, em muitos casos, o ruído adicionado não muda significativamente a forma como você interpreta os resultados.

Pode ser útil pensar da seguinte maneira: Você teria confiança para tomar uma decisão com base em um determinado conjunto de dados se eles não tivessem ruído?

Por exemplo, um anunciante pode mudar a estratégia ou os orçamentos da campanha com base no fato de que a campanha A teve 15 conversões e a campanha B teve 16?

Se a resposta for "não", o ruído é irrelevante.

O ideal é configurar o uso da API de modo que:

  1. A resposta para a pergunta acima é sim.
  2. O ruído é gerenciado de uma forma que não afete significativamente sua capacidade de tomar uma decisão com base em determinados dados. Você pode fazer isso da seguinte maneira: para um número mínimo esperado de conversões, mantenha o ruído na métrica coletada abaixo de uma determinada porcentagem.

Nesta seção e na próxima, vamos descrever estratégias para alcançar o objetivo 2.

Principais conceitos

O serviço de agregação adiciona ruído a cada valor de resumo (ou seja, uma vez por chave) sempre que um relatório de resumo é solicitado.

Esses valores de ruído são extraídos aleatoriamente de uma distribuição de probabilidade específica, conforme discutido abaixo.

Todos os elementos que afetam o ruído dependem de dois conceitos principais.

  1. A distribuição de ruído (detalhes abaixo) é a mesma, independentemente do valor do resumo, baixo ou alto. Portanto, quanto maior o valor do resumo, menor será o impacto do ruído em relação a esse valor.

    Por exemplo, suponha que um valor de compra agregado total de US $20.000 e um valor de compra agregado total de US $200 estejam sujeitos a ruídos selecionados da mesma distribuição.

    Vamos supor que o ruído dessa distribuição varie aproximadamente entre -100 e +100.

    • Para o valor de compra resumido de US $20.000, o ruído varia entre 0 e 100/20.000=0,5%.
    • Para o valor de compra resumido de US $200, o ruído varia entre 0 e 100/200=50%.

    Portanto, o ruído provavelmente terá um impacto menor no valor de compra agregado de US $20.000 do que no valor de US $200. Em termos relativos, é provável que US$ 20.000 tenham menos ruído,ou seja, é provável que tenham uma proporção de sinal-ruído maior.

    Valores agregados mais altos têm um impacto de ruído relativamente menor.

    Isso tem algumas implicações práticas importantes que são descritas na próxima seção. Esse mecanismo faz parte do design da API, e as implicações práticas são de longo prazo. Elas vão continuar desempenhando um papel importante quando as adtechs projetarem e avaliarem várias estratégias de agregação.

  2. Embora o ruído seja extraído da mesma distribuição, independentemente do valor do resumo, essa distribuição depende de vários parâmetros. Um desses parâmetros, epsilon, pode ser alterado pelas adtechs durante o teste de origem concluído para avaliar vários ajustes de utilidade/privacidade. No entanto, considere a capacidade de ajustar o epsilon como temporário. Agradecemos seu feedback sobre os casos de uso e os valores de epsilon que funcionam bem.

Embora uma empresa de adtech não tenha controle direto sobre as formas de adição de ruído, ela pode influenciar o impacto do ruído nos dados de medição. Nas próximas seções, vamos analisar como o ruído pode ser influenciado na prática.

Antes disso, vamos analisar melhor como o ruído é aplicado.

Como o zoom funciona: como o ruído é aplicado

Uma distribuição de ruído

O ruído é extraído da distribuição de Laplace, com os seguintes parâmetros:

  • Uma média (μ) de 0. Isso significa que o valor de ruído mais provável é 0 (sem ruído adicionado) e que o valor com ruído tem a mesma probabilidade de ser menor que o original ou maior (às vezes chamado de sem viés).
  • Um parâmetro de escala de b = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET é definido no navegador.
    • epsilon é usado no serviço de agregação.

O diagrama a seguir mostra a função de densidade de probabilidade para uma distribuição de Laplace com μ=0, b = 20:

Função de densidade de probabilidade para uma distribuição de Laplace com μ=0, b = 20

Valores de ruído aleatório, uma distribuição de ruído

Vamos supor que uma adtech solicite relatórios de resumo para duas chaves de agregação, chave1 e chave2.

O serviço de agregação seleciona dois valores de ruído, x1 e x2, seguindo a mesma distribuição de ruído. O x1 é adicionado ao valor de resumo da chave1, e o x2 é adicionado ao valor de resumo da chave2.

Nos diagramas, vamos representar os valores de ruído como idênticos. Essa é uma simplificação. Na realidade, os valores de ruído variam, já que são extraídos aleatoriamente da distribuição.

Isso ilustra que os valores de ruído vêm todos da mesma distribuição e são independentes do valor de resumo em que são aplicados.

Outras propriedades do ruído

O ruído é aplicado a todos os valores de resumo, incluindo os vazios (0).

Até mesmo valores de resumo vazios estão sujeitos a ruído.

Por exemplo, mesmo que o valor real do resumo de uma determinada chave seja 0, o valor do resumo com ruídos que você vai encontrar no relatório de resumo dessa chave provavelmente não será 0.

O ruído pode ser um número positivo ou negativo.

Exemplos de ruído positivo e negativo.

Por exemplo, para um valor de compra antes do ruído de 327.000, o ruído pode ser +6.000 ou -6.000 (estes são valores de exemplo arbitrários).

Como avaliar o ruído

Como calcular o desvio padrão do ruído

O desvio padrão do ruído é:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Exemplo

Com epsilon = 10, o desvio padrão do ruído é:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Como avaliar quando as diferenças de medição são significativas

Como você vai saber a desvio padrão do ruído adicionado a cada valor de saída pelo serviço de agregação, é possível determinar os limites adequados para comparação e determinar se as diferenças observadas podem ser devido ao ruído.

Por exemplo, se o ruído adicionado a um valor for aproximadamente +/- 10 (considerando o dimensionamento) e a diferença no valor entre duas campanhas for superior a 100, é provável que a diferença no valor medido entre cada campanha não seja apenas devido ao ruído.

Interaja e compartilhe feedback

Participe e experimente essa API.

Próximas etapas