瞭解雜訊代表的意義、這些信號的意義,以及對成效評估的影響。
摘要報表是可匯總報表的匯總結果。 收集器批次處理可匯總報表並由匯總服務處理時,系統會在摘要報表中加入雜訊 (隨機數量) 的雜訊。為保護使用者隱私,裝置會加入雜訊。這個機制旨在提供可支援差異化隱私評估作業的架構。
摘要報表雜訊簡介
加入雜訊通常並非現今廣告評估的一部分,但在多數情況下,加入雜訊不會大幅改變您解讀結果的方式。
您可以透過下列方式思考: 如果資料不夠吵雜,您認為根據某些資料做出決策嗎?
舉例來說,如果廣告活動 A 獲得了 15 次轉換,廣告活動 B 獲得了 16 次轉換,廣告客戶有信心修改廣告活動策略或預算。
如果答案為「否」,則雜訊並無關聯。
建議您以下列方式設定 API 使用方式:
- 上方問題的答案是「是」。
- 噪音管理的方式不會大幅影響您根據特定資料做出決策的能力,您可以像這樣:在預期轉換次數下限的情況下,建議您將收集指標中的雜訊控制在一定百分比以下。
在本節和後續環節中,我們會概述達到 2 目標的策略。
核心概念
匯總服務會在每次要求摘要報表時,在每個摘要值 (也就是每個鍵一次) 加入雜訊一次。
這些雜訊值是由特定機率分佈隨機擷取,詳情請參閱下文。
所有影響雜訊的元素都仰賴兩個主要概念。
雜訊分佈情形 (詳見下文) 無論摘要值為何,無論摘要值為何都一樣。因此,相較於這個值,摘要值越高,雜訊所造成的影響就越少。
舉例來說,假設總購物總金額為 $20,000 美元,總購物總金額為 $200 美元,則適用相同的分佈情形。
我們假設這些分佈情形的雜訊大約介於 -100 和 +100 之間。
- 以 $20,000 美元的匯總購物價值計算,雜訊介於 0 到 100/20,000=0.5% 之間。
- 以 $200 美元的匯總購物價值計算,雜訊介於 0 到 100/200=50% 之間。
因此,雜訊對 $20,000 美元的匯總購物價值所造成的影響可能會低於 $200 美元。相對而言,$20,000 美元的雜訊可能較少,因此信號雜訊比率可能較高。
這會有一些重要的實際影響,我們將在下一節中說明。這項機制是 API 設計的一部分,實際的影響長期下來可能會有實際的影響。廣告技術人員在設計及評估各種匯總策略時,也將繼續扮演關鍵角色。
雖然雜訊來自於同一分佈情形 (不論匯總值為何),但分佈取決於多個參數。在結束的來源試用期間,廣告技術可能會修改其中一個參數 epsilon,藉此評估各項公用程式/隱私權調整。不過,請思考是否能暫時調整 Epsilon。我們歡迎您提供意見,分享自己的用途和適合的 Epsilon 價值觀。
雖然廣告技術公司無法直接控制加入雜訊的方式,但可能會影響雜訊對評估資料的影響。在接下來的章節中,我們將深入探討雜訊在實務中可能造成的影響。
正式操作前,讓我們先進一步瞭解雜訊的套用方式。
放大:雜訊的套用方式
單一雜訊分佈
雜訊取自 Laplace 分佈,其中包含下列參數:
- 平均值 (
μ
)。也就是說,最可能的雜訊值為 0 (沒有加入雜訊),且雜訊值有可能比原始值更小 (有時稱為「無偏誤」)。 - 是
b = CONTRIBUTION_BUDGET
/epsilon
的縮放參數。- 瀏覽器已定義「
CONTRIBUTION_BUDGET
」。 - 已修正匯總伺服器中的
epsilon
。
- 瀏覽器已定義「
下圖顯示 Laplace 分佈以 μ=0,b = 20 的機率密度函式:
隨機雜訊值,單一雜訊分佈
假設廣告技術要求使用兩個匯總鍵 (key1 和 key2) 產生摘要報表。
匯總服務會依照相同的雜訊分配方式,選取兩個雜訊值 x1 和 x2。在 key1 的匯總值中加入 x1,並在 key2 的匯總值中加入 x2。
在圖表中,我們會以相同的雜訊值表示。這只是簡化的;實際上,雜訊值會隨分佈隨機而隨機繪製而不同。
這表示雜訊值全都來自相同的分佈,而且與套用的摘要值無關。
雜訊的其他性質
系統會將雜訊套用至每個摘要值,包括空白值 (0)。
舉例來說,即使特定鍵的真實摘要值是 0,此鍵的摘要報表中顯示的雜訊摘要值 (很有可能) 並非 0。
雜訊可以是正數或負數。
舉例來說,如果前噪音的購買金額是 327,000,雜訊可能會是 +6,000 或 -6,000 (這些都是任意範例值)。
正在評估雜訊
計算雜訊的標準差
雜訊的標準差如下:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
範例
使用 Epsilon = 10 時,雜訊的標準差為:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
在成效評估出現顯著差異時進行評估
由於您知道匯總服務為每個值輸出加入的雜訊標準差,因此可以決定適當的閾值來進行比較,判斷觀察到的差異是否為幹擾因素所導致。
舉例來說,如果加入的雜訊約為 +/- 10 (須考量資料規模),而兩個廣告活動的值差異超過 100,我們可確信各廣告活動測量到的值差異並非單靠雜訊所造成。
交流及分享意見回饋
您可以參與這個 API 並進行實驗。
- 瞭解可匯總報表和匯總服務、提出問題和建議意見回饋。
- 詳閱「歸因報表指南」。
- 在 Privacy Sandbox 開發人員支援存放區中提問及加入討論。
後續步驟
- 如要瞭解哪些變數可控制雜訊和雜訊比,請參閱「處理雜訊」一文。
- 參閱「試用摘要報表設計決策」一文,瞭解如何規劃匯總報表策略。
- 試試雜訊研究室。