노이즈의 의미와 노이즈가 추가되는 위치, 측정 활동에 미치는 영향을 알아보세요.
요약 보고서는 집계 가능한 보고서를 종합한 결과입니다. 집계 가능한 보고서가 수집기에서 일괄 처리되고 집계 서비스에서 처리되면 임의의 데이터 양인 노이즈가 결과 요약 보고서에 추가됩니다. 사용자 개인 정보를 보호하기 위해 노이즈가 추가됩니다. 이 메커니즘의 목표는 개인 정보 차등 보호 측정을 지원할 수 있는 프레임워크를 보유하는 것입니다.
요약 보고서의 노이즈 소개
오늘날에는 노이즈를 추가하는 것이 일반적으로 광고 측정에 포함되지 않지만, 많은 경우 추가된 노이즈로 인해 결과를 해석하는 방식이 크게 달라지지 않습니다.
다음과 같이 생각해 보면 도움이 될 수 있습니다. 데이터에 노이즈가 없다면 특정 데이터를 기반으로 확신을 가지고 결정을 내릴 수 있나요?
예를 들어 캠페인 A의 전환수가 15회, 캠페인 B의 전환수가 16회라는 사실을 바탕으로 광고주가 캠페인 전략이나 예산을 변경할 수 있을까요?
답이 '아니요'라면 노이즈는 관련이 없습니다.
다음과 같은 방식으로 API 사용을 구성하는 것이 좋습니다.
- 위의 질문에 대한 대답은 '예'입니다.
- 노이즈는 특정 데이터를 기반으로 의사 결정을 내리는 능력에 큰 영향을 미치지 않는 방식으로 관리됩니다. 예상되는 최소 전환수에 대해 수집된 측정항목의 노이즈를 특정 비율 미만으로 유지하는 방법은 다음과 같습니다.
이 섹션과 다음에서는 2단계를 달성하기 위한 전략을 개략적으로 설명합니다.
핵심 개념
집계 서비스는 요약 보고서가 요청될 때마다 각 요약 값에 한 번(즉, 키당 한 번) 노이즈를 추가합니다.
이러한 노이즈 값은 아래에 설명된 특정 확률 분포에서 무작위로 추출됩니다.
노이즈에 영향을 미치는 모든 요소는 두 가지 기본 개념에 의존합니다.
노이즈 분포(아래 세부정보)는 요약 값(낮음 또는 높음)과 관계없이 동일합니다. 따라서 요약 값이 클수록 이 값을 기준으로 노이즈가 미칠 수 있는 영향이 적습니다.
예를 들어 집계된 총 구매 가치인 $20,000와 총 구매 가치 $200가 모두 동일한 분포에서 선택된 노이즈에 의해 영향을 받는다고 가정해 보겠습니다.
이 분포의 노이즈가 대략 -100에서 +100까지 다르다고 가정해 보겠습니다.
- 요약 구매 금액이 20,000달러인 경우 노이즈는 0~100/20,000=0.5% 사이에서 달라집니다.
- 요약 구매 금액이 200달러인 경우 노이즈는 0~100/200=50% 사이에서 다양합니다.
따라서 노이즈는 집계된 구매 가치인 200달러의 가치보다 20,000달러에 미치는 영향이 적을 가능성이 높습니다. 상대적으로 말하자면 $20,000는 노이즈가 적을 가능성이 높으므로 신호 대 노이즈 비율이 더 높을 수 있습니다.
여기에는 몇 가지 중요한 실질적인 의미가 있으며 다음 섹션에서 설명합니다. 이 메커니즘은 API 설계의 일부이며 실질적 영향은 장기적으로 영향을 미칩니다. 또한 광고 기술이 다양한 집계 전략을 설계하고 평가할 때 계속해서 중요한 역할을 할 것입니다.
노이즈는 요약 값과 관계없이 동일한 분포에서 추출되지만 그 분포는 여러 매개변수에 따라 달라집니다. 이러한 매개변수 중 하나인 epsilon은 다양한 유용성/개인 정보 보호 조정을 평가하기 위해 오리진 트라이얼이 종료되는 동안 광고 기술에 의해 변경될 수 있습니다. 그러나 엡실론을 조정하는 기능을 일시적으로 고려해보세요. 사용 사례와 효과적인 엡실론의 값에 대한 의견을 환영합니다.
광고 기술 회사는 노이즈가 추가되는 방식을 직접 제어할 수는 없지만 노이즈가 측정 데이터에 미치는 영향에 영향을 줄 수 있습니다. 다음 섹션에서는 실제로 노이즈가 어떻게 영향을 받는지 알아보겠습니다.
그 전에 노이즈가 적용되는 방식을 자세히 살펴보겠습니다.
확대: 노이즈가 적용되는 방식
단일 노이즈 분포
노이즈는 다음 매개변수를 사용하여 Laplace 분포에서 가져옵니다.
- 0의 평균 (
μ
). 즉, 노이즈가 추가될 가능성이 가장 높은 값은 0 (추가된 노이즈 없음)이며 노이즈가 더해진 값이 원래 값보다 작을 수 있다는 의미입니다 (이를 비편향이라고도 함). b = CONTRIBUTION_BUDGET
/epsilon
의 배율 매개변수CONTRIBUTION_BUDGET
는 브라우저에 정의됩니다.epsilon
는 집계 서버에서 고정되어 있습니다.
다음 다이어그램은 μ=0, b = 20인 라플라스 분포의 확률 밀도 함수를 보여줍니다.
임의의 노이즈 값, 하나의 노이즈 분포
광고 기술이 두 집계 키(key1 및 key2)에 대한 요약 보고서를 요청한다고 가정해 보겠습니다.
집계 서비스는 동일한 노이즈 분포에 따라 두 노이즈 값 x1과 x2를 선택합니다. x1은 key1의 요약 값에 추가되고 x2는 key2의 요약 값에 추가됩니다.
다이어그램에서는 노이즈 값을 동일하게 표현합니다. 이 내용은 단순화된 것입니다. 실제로는 노이즈 값은 분포에서 무작위로 추출되므로 다양합니다.
이는 노이즈 값이 모두 동일한 분포에서 비롯되었으며 적용되는 요약 값과는 별개임을 보여줍니다.
노이즈의 기타 속성
노이즈는 빈 값 (0)을 포함하여 모든 요약 값에 적용됩니다.
예를 들어 특정 키의 실제 요약 값이 0인 경우에도 이 키의 요약 보고서에 표시되는 노이즈 요약 값은 0이 아닐 가능성이 높습니다.
노이즈는 양수 또는 음수일 수 있습니다.
예를 들어 노이즈 전 구매 금액이 327,000인 경우 노이즈는 +6,000 또는 -6,000일 수 있습니다 (임의의 예시 값임).
노이즈 평가
노이즈의 표준 편차 계산
노이즈의 표준 편차는 다음과 같습니다.
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
예
엡실론이 10일 때 노이즈의 표준 편차는 다음과 같습니다.
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
측정 차이가 큰 경우 평가하기
집계 서비스를 통해 각 값 출력에 추가한 노이즈의 표준 편차를 알 수 있으므로 관찰된 차이가 노이즈로 인한 것인지 판단하기 위해 적절한 비교 임곗값을 결정할 수 있습니다.
예를 들어 값에 추가된 노이즈가 약 +/- 10 (조정 기준)이고 두 캠페인 간 값의 차이가 100을 초과하면 각 캠페인 간에 측정된 값의 차이가 노이즈만으로 인한 것이 아니라고 결론을 내릴 수 있습니다.
참여 및 의견 공유
이 API에 참여하여 실험해 보세요.
- 집계 가능한 보고서 및 집계 서비스에 대해 읽고, 질문하고, 의견을 제안하세요.
- 기여도 보고 가이드를 읽어봅니다.
- 개인 정보 보호 샌드박스 개발자 지원 저장소에서 질문하고 토론에 참여하세요.
다음 단계
- 신호 대 잡음비를 개선하기 위해 제어할 수 있는 변수를 확인하려면 노이즈 다루기를 참고하세요.
- 집계 보고 전략을 계획하는 데 도움이 필요하면 요약 보고서 설계 결정 실험을 검토하세요.
- 노이즈 실험실을 사용해 보세요.