노이즈의 의미, 노이즈가 추가되는 위치, 노이즈가 측정에 미치는 영향에 대해 알아보세요.
요약 보고서는 집계 가능한 보고서의 집계 결과입니다. 집계 가능한 보고서가 수집기에서 일괄 처리되고 집계 서비스에서 처리되면 결과 요약 보고서에 무작위로 생성된 노이즈(데이터)가 추가됩니다. 사용자 개인 정보를 보호하기 위해 노이즈가 추가됩니다. 이 메커니즘의 목표는 차등 비공개 측정을 지원할 수 있는 프레임워크를 보유하는 것입니다.

요약 보고서의 노이즈 소개
노이즈를 추가하는 것은 일반적으로 오늘날 광고 측정의 일부가 아니지만, 대부분의 경우 추가된 노이즈는 결과를 해석하는 방식을 크게 바꾸지 않습니다.
다음과 같이 생각해 보세요. 노이즈가 없는 특정 데이터를 기반으로 결정을 내릴 수 있나요?
예를 들어 캠페인 A의 전환수가 15이고 캠페인 B의 전환수가 16이므로 캠페인 전략이나 예산을 변경할 수 있다고 광고주가 확신할 수 있을까요?
그렇지 않다면 노이즈는 관련이 없습니다.
다음과 같은 방식으로 API 사용을 구성하는 것이 좋습니다.
- 위 질문의 답은 '예'입니다.
- 노이즈는 특정 데이터를 기반으로 결정을 내리는 능력에 큰 영향을 미치지 않는 방식으로 관리됩니다. 다음과 같이 접근할 수 있습니다. 예상되는 최소 전환수의 경우 수집된 측정항목의 노이즈를 특정 비율 미만으로 유지합니다.
이 섹션과 다음 섹션에서는 2를 달성하기 위한 전략을 간략히 설명합니다.
핵심 개념
집계 서비스는 요약 보고서가 요청될 때마다 각 요약 값(즉, 키당 한 번)에 노이즈를 추가합니다.
이러한 노이즈 값은 아래에서 설명하는 특정 확률 분포에서 무작위로 가져옵니다.
노이즈에 영향을 미치는 모든 요소는 두 가지 기본 개념에 의존합니다.
노이즈 분포 (아래 세부정보)는 요약 값이 낮든 높든 관계없이 동일합니다. 따라서 요약 값이 클수록 노이즈가 이 값에 미치는 영향이 적을 수 있습니다.
예를 들어 총 집계된 구매 금액이 20,000달러인 경우와 총 집계된 구매 금액이 200달러인 경우 모두 동일한 분포에서 선택된 노이즈의 영향을 받는다고 가정해 보겠습니다.
이 분포의 노이즈가 대략 -100과 +100 사이에서 변한다고 가정해 보겠습니다.
- 요약 구매 금액이 20,000달러인 경우 노이즈는 0과 100/20,000=0.5% 사이에서 달라집니다.
- 요약 구매 금액이 200달러인 경우 노이즈는 0과 100/200=50% 사이에서 달라집니다.
따라서 노이즈는 집계된 구매 금액 2,000달러에 미치는 영향이 200달러 금액에 미치는 영향보다 적을 수 있습니다. 상대적으로 말해 20,000달러는 노이즈가 적을 수 있습니다. 즉, 신호 대 노이즈 비율이 더 높을 수 있습니다.
이에 따른 몇 가지 중요한 실질적인 의미가 있으며 이는 다음 섹션에서 설명합니다. 이 메커니즘은 API 설계의 일부이며 실질적인 영향은 장기적입니다. 이러한 기술은 광고 기술이 다양한 집계 전략을 설계하고 평가할 때 계속해서 중요한 역할을 할 것입니다.
노이즈는 요약 값과 관계없이 동일한 분포에서 가져오지만, 이 분포는 여러 매개변수에 따라 달라집니다. 이러한 매개변수 중 하나인 epsilon은 다양한 유용성/개인 정보 보호 조정을 평가하기 위해 종료된 출처 체험판 중에 광고 기술에서 변경할 수 있습니다. 하지만 엡실론을 조정하는 기능은 일시적인 것으로 간주합니다. 사용 사례와 잘 작동하는 에피론 값에 관한 의견을 보내주시면 큰 도움이 됩니다.
광고 기술 회사는 노이즈가 추가되는 방식을 직접 제어할 수는 없지만 노이즈가 측정 데이터에 미치는 영향에 영향을 줄 수 있습니다. 다음 섹션에서는 실제로 노이즈가 어떻게 영향을 받을 수 있는지 자세히 알아봅니다.
먼저 노이즈가 적용되는 방식을 자세히 살펴보겠습니다.
확대: 노이즈가 적용되는 방식
노이즈 분포 1개
노이즈는 다음 매개변수를 사용하여 라플라스 분포에서 가져옵니다.
- 평균 (
μ
)이 0입니다. 즉, 가장 가능성이 높은 노이즈 값은 0 (노이즈가 추가되지 않음)이며 노이즈가 있는 값은 원본보다 작을 수도 있고 더 클 수도 있습니다 (이를 편향되지 않음이라고도 함). b = CONTRIBUTION_BUDGET
/epsilon
의 스케일 매개변수입니다.CONTRIBUTION_BUDGET
은 브라우저에 정의되어 있습니다.epsilon
는 집계 서비스에서 사용됩니다.
다음 다이어그램은 μ=0, b = 20인 라플라스 분포의 확률 밀도 함수를 보여줍니다.

무작위 노이즈 값, 노이즈 분포 1개
광고 기술이 두 집계 키인 key1 및 key2에 대한 요약 보고서를 요청한다고 가정해 보겠습니다.
집계 서비스는 동일한 노이즈 분포에 따라 두 개의 노이즈 값 x1과 x2를 선택합니다. x1은 key1의 요약 값에 추가되고 x2는 key2의 요약 값에 추가됩니다.
다이어그램에서는 노이즈 값을 동일하게 나타냅니다. 이는 단순화된 설명입니다. 실제로는 노이즈 값이 분포에서 무작위로 추출되므로 달라집니다.
이는 노이즈 값이 모두 동일한 분포에서 가져오며 적용되는 요약 값과는 독립적임을 보여줍니다.
소음의 기타 속성
노이즈는 빈 값 (0)을 포함한 모든 요약 값에 적용됩니다.

예를 들어 특정 키의 실제 요약 값이 0이더라도 이 키의 요약 보고서에 표시되는 노이즈 요약 값은 0이 아닐 가능성이 높습니다.
노이즈는 양수 또는 음수일 수 있습니다.

예를 들어 노이즈 이전 구매 금액이 327,000인 경우 노이즈는 +6,000 또는 -6,000일 수 있습니다 (임의의 예시 값).
노이즈 평가
노이즈의 표준 편차 계산
노이즈의 표준 편차는 다음과 같습니다.
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
예
epsilon = 10인 경우 노이즈의 표준 편차는 다음과 같습니다.
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
측정 차이가 유의미한지 평가
집계 서비스에서 출력하는 각 값에 추가된 노이즈의 표준 편차를 알 수 있으므로 관찰된 차이가 노이즈로 인한 것인지 확인하기 위해 비교할 적절한 기준점을 결정할 수 있습니다.
예를 들어 값에 추가된 노이즈가 약 +/- 10이고 (확장 고려) 두 캠페인 간의 값 차이가 100을 초과하는 경우 각 캠페인 간에 측정된 값의 차이가 노이즈로 인한 것이 아님을 확신할 수 있습니다.
참여 및 의견 공유
이 API에 참여하여 실험해 보세요.
- 집계 가능한 보고서 및 집계 서비스에 대해 읽고, 질문하고, 의견을 제안하세요.
- 기여도 보고 가이드를 읽어봅니다.
- 개인 정보 보호 샌드박스 개발자 지원 저장소에서 질문하고 토론에 참여하세요.
다음 단계
- 신호 대 잡음비를 개선하기 위해 제어할 수 있는 변수를 확인하려면 잡음 처리를 참고하세요.
- 집계 보고 전략을 계획하는 데 도움이 되는 요약 보고서 디자인 결정 실험을 검토하세요.
- 노이즈 실험실을 사용해 보세요.