瞭解摘要報表中的雜訊

瞭解雜訊的定義、加入位置,以及對評估作業的影響。

摘要報表是可匯總報表的匯總結果。當可匯總報表由收集器批次處理,並由匯總服務處理時,系統會在產生的摘要報表中加入雜訊 (隨機數量資料)。加入雜訊可保護使用者隱私。這項機制的目標是提供可支援差異化隱私評估作業的架構。

最終摘要報表中會加入雜訊。

摘要報表中的雜訊簡介

雖然目前的廣告評估作業通常不會加入雜訊,但在許多情況下,加入的雜訊不會大幅改變您解讀結果的方式。

您可以從以下角度思考這個問題:如果資料沒有雜訊,您是否會根據該資料做出明智的決策?

舉例來說,廣告客戶是否會根據廣告活動 A 有 15 次轉換,廣告活動 B 有 16 次轉換,而改變廣告活動策略或預算?

如果答案為否,則噪音就無關緊要。

您需要以以下方式設定 API 用量:

  1. 上述問題的答案為「是」。
  2. 我們會以不會對您根據特定資料做出決策的能力造成重大影響的方式管理雜訊。您可以採取下列做法:針對預期的轉換次數下限,請將收集的指標雜訊保持在特定百分比以下。

在本節和後續章節中,我們將概述達成 2 的策略。

核心概念

匯總服務會在每次要求摘要報表時,為每個摘要值 (也就是每個鍵) 加入一次雜訊。

這些雜訊值會隨機從特定機率分布中抽取,詳情請參閱下文。

影響噪音的所有元素都依賴兩個主要概念。

  1. 無論匯總值是高或低,雜訊分布 (詳情請見下文) 都相同。因此,摘要值越高,相較於這個值,雜訊的影響就越小。

    舉例來說,假設總計購買價值為 $20,000 美元和 $200 美元,都會受到來自相同分布的雜訊影響。

    假設這項分布的雜訊大致介於 -100 和 +100 之間。

    • 對於總購物價值 $20,000 美元,雜訊會介於 0 和 100/20,000=0.5%
    • 對於總購物價值 $200 美元,雜訊會介於 0 和 100/200=50% 之間。

    因此,相較於 $200 的價值,雜訊對 $20,000 的總購買價值影響較小。相對來說,20,000 美元可能較不容易受到雜訊干擾,也就是說,訊號雜訊比可能較高。

    匯總值越高,雜訊影響就相對較低。

    這會帶來一些重要的實際影響,我們會在下一節中說明。這項機制是 API 設計的一部分,實際影響是長期性的。在廣告技術人員設計及評估各種匯總策略時,這些技術將持續扮演重要角色。

  2. 無論摘要值為何,雜訊都會從相同的分佈方式繪製,但該分佈方式取決於多個參數。廣告技術可以在結束原始試驗期間變更其中一個參數 epsilon,以評估各種實用性/隱私權調整。不過,請考慮暫時調整 epsilon 的功能。歡迎您針對使用案例和有效的 epsilon 值提供意見。

雖然廣告技術公司無法直接控制雜訊的加入方式,但可以影響雜訊對成效評估資料的影響。在後續章節中,我們將深入探討雜訊在實際應用中的影響。

在開始之前,讓我們先來深入瞭解噪音的應用方式。

放大:雜訊的套用方式

一個雜訊分布

雜訊是根據 Laplace 分布繪製,參數如下:

  • 平均值 (μ) 為 0。這表示最可能的雜訊值為 0 (未加入雜訊),且雜訊值與原始值的大小一樣可能 (這有時稱為「無偏差」)。
  • b = CONTRIBUTION_BUDGET / epsilon縮放參數
    • CONTRIBUTION_BUDGET 是在瀏覽器中定義的。
    • epsilon 用於匯總服務。

下圖顯示 Laplace 分布 (μ=0, b = 20) 的機率密度函式:

以 μ=0、b = 20 為例,Laplace 分布的機率密度函式

隨機雜訊值,一個雜訊分布

假設廣告技術要求 key1 和 key2 這兩個匯總鍵的摘要報表。

匯總服務會依據相同的雜訊分布選取兩個雜訊值 x1 和 x2。x1 會加進 key1 的摘要值,而 x2 會加進 key2 的摘要值。

在圖表中,我們會將雜訊值視為相同。這只是簡化版,實際上,雜訊值會有所不同,因為它們是從分布中隨機抽取。

這表示雜訊值皆來自相同的發布,且與套用的摘要值無關。

噪音的其他屬性

雜訊會套用至所有摘要值,包括空值 (0)。

即使是空的摘要值,也可能會受到雜訊影響。

舉例來說,即使特定鍵的實際摘要值為 0,您在摘要報表中看到的摘要值 (很可能) 也不會是 0。

雜訊可以是正數或負數。

正面和負面雜訊的示例。

舉例來說,假設購買金額在雜訊前為 327,000,雜訊可能為 +6,000 或 -6,000 (這些是任意示例值)。

評估噪音

計算雜訊的標準差

雜訊的標準差為:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
範例

如果 epsilon 為 10,雜訊的標準差為:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

評估測量差異是否顯著

由於您會知道匯總服務在每個值輸出時加入雜訊的標準差,因此可以決定適當的比較門檻,判斷觀察到的差異是否可能出於雜訊。

舉例來說,如果某個值的雜訊約為 +/- 10 (考量縮放),而兩個廣告活動之間的值差超過 100,那麼我們就能放心地推斷,兩個廣告活動之間的差異並非單純因為雜訊所致。

交流及分享意見回饋

您可以參與這個 API 並進行實驗

後續步驟