評估測試指南

本指南旨在提供執行 Privacy Sandbox Attribution Reporting API 獨立測試的指引。詳情請參閱第 12 節

  • 關聯性 API 測試指南中介紹了控制組和實驗組結果中控制組和實驗組的評估方式,因為這些實驗的目標是測試 Protected Audience & Topics 的效益。詳情請參閱第 11 節

事前準備

評估目標和建議實驗設定

目標 1 - 判斷 Attribution Reporting API 的報表功能效益

我們提議進行 A/A 設定,以評估對報表的影響

  • 本提案符合 CMA 的評估轉換指標評估指南。詳情請參閱第 21 節第 12 節
  • 比起模式 A/B,我們更建議使用這種方法,
  • 此外,A/A 實驗也會區隔 Attribution Reporting API 對轉換評估的影響,例如避免因缺少第三方 Cookie 而導致轉換率變化。

建議的分析重點

  • 選擇規模夠大的流量,以取得具統計顯著性的結果,同時使用第三方 Cookie 和 Privacy Sandbox API。理想情況下,這是所有流量,但模式 B (停用第三方 Cookie) 除外。
    • 建議您從 A/A 實驗中排除模式 B,因為無法使用第三方 Cookie,且無法將 ARA 結果與第三方 Cookie 歸因結果進行比較。
    • 如果您想納入模式 B,建議您為模式 B 的流量啟用偵錯報表。偵錯報表可協助您排解任何設定或導入問題。
  • 如果您打算對小部分的流量進行測試,收到的資料結果應該會比預期的低。建議您在分析時特別留意所用的流量比例,以及是否根據雜訊報表或未經命名的偵錯報表回報結果。
    • 如果是摘要報表,摘要值可能會較低,而匯總服務會納入相同分佈情形的雜訊,無論摘要值為何。
  • 針對該流量部分測試不同的評估方法
    • 控制組 1 - 使用目前的評估方法 (第三方 Cookie + 非第三方 Cookie 資料)
    • (選用) 控制組 2 - 沒有 Privacy Sandbox 和第三方 Cookie,即僅包含非第三方 Cookie 資料
      • 請注意,部分網站可能還是能使用部分第三方 Cookie,為了取得最準確的結果,請勿在「控制組 2」和「實驗組」中使用這些第三方 Cookie 進行評估
    • 處理方式 - Privacy Sandbox API 和非第三方 Cookie 資料
      • 請注意,部分網站可能還是能使用部分第三方 Cookie,為了取得最準確的結果,請勿在「控制組 2」和「實驗組」中使用這些第三方 Cookie 進行評估

指標

  • 定義哪些指標最適合您的業務來評估成果,並附上指標代表的意義和評估方式。
    • 建議您著重於對廣告客戶至關重要的維度和指標。舉例來說,如果您的廣告客戶著重於購物轉換,請評估這些轉換和購物價值的轉換次數。
  • 比起單次轉換費用 (例如單次轉換費用),以次數或總和為基準的指標 (例如轉換率) 比較合適。如果是 A/A 分析,可以透過計數或轉換價值總和來計算費用指標。
  • 請指定指標的依據是事件層級報表、摘要報表,還是兩份報表 (以及是否使用偵錯報表)。
  • 請參閱建議的範本表格,瞭解如何設定量化意見回饋格式。

資料分析

  • 涵蓋率:
    • 你能與第三方 Cookie 相較,針對類似的使用者進行評估嗎?您的涵蓋率是否較高 (例如從應用程式到網站)?
    • 你是否能評估自己或廣告客戶最關心的轉換 (和維度/指標)?
  • 定量意見回饋
    • 例如,在廣告客戶報表中,您可以記錄該廣告客戶的重要轉換百分比,或是符合報表品質標準的廣告活動所佔的百分比 (透過品質長條,針對轉換次數不多的廣告活動進行調整)
    • 例如,廣告客戶區分了幾個廣告客戶現在越來越依賴第三方 Cookie 來製作報表。
  • 其他定性意見回饋:
    • ARA 對廣告客戶評估/歸因分析設定的複雜性有何影響?
    • ARA 能否幫助或阻礙廣告客戶專注於重視的指標和目標?

報表影響的建議範本表格

(報表) 表格 1:

向 CMA 回報實驗結果的範例表格 (取自第 18 頁,但測試人員應考量哪些指標最有意義 / 可行,可以視需要提供及調整表格)

實驗組與控制組 1
比較提議的結束狀態與目前狀態
實驗組與控制組 2
比較提議的結束狀態,但不含 PS API。
控制組 2 與控制組 1
比較使用及不使用第三方 Cookie 的轉換評估 (無須使用任何 PS API)。
評估方法 比較實驗組 (ARA 與非第三方 Cookie 資料) 與控制組 1 (第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估方式 比較實驗組 (ARA 與非第三方 Cookie 資料) 的轉換評估與控制組 2 (僅限非第三方 Cookie 資料) 比較控制組 2 (僅限非第三方 Cookie 資料) 與控制組 1 (第三方 Cookie 和非第三方 Cookie 資料) 的轉換評估數據
每一美元的轉換 效果 效果 效果
標準錯誤 標準錯誤 標準錯誤
95% 信賴區間 95% 信賴區間 95% 信賴區間
轉換總數 效果 效果 效果
標準錯誤 標準錯誤 標準錯誤
95% 信賴區間 95% 信賴區間 95% 信賴區間
轉換率 效果 效果 效果
標準錯誤 標準錯誤 標準錯誤
95% 信賴區間 95% 信賴區間 95% 信賴區間
(新增您自己的指標)
(報表) 表格 2:

報表範例表格:實驗組和控制組指標的描述性統計資料統計資料範例 (取自第 20 頁,但測試人員應考量哪些指標最有意義 / 可行,能夠視需要提供及調整表格)

指標 實驗組
使用 ARA 和您使用的任何非第三方 Cookie 資料進行轉換評估
控制組 1
使用第三方 Cookie 和任何非第三方 Cookie 資料進行轉換評估
控制組 2
僅使用非第三方 Cookie 資料進行轉換評估
每一美元的轉換 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和第 75 個百分位數 第 25 和第 75 個百分位數 第 25 和第 75 個百分位數
轉換總數 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和第 75 個百分位數 第 25 和第 75 個百分位數 第 25 和第 75 個百分位數
轉換率 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和第 75 個百分位數 第 25 和第 75 個百分位數 第 25 和第 75 個百分位數
(新增您自己的指標)

目標 2 - 判斷 Attribution Reporting API 用於出價最佳化的成效

我們建議 A/B 設定來評估對出價最佳化的影響。

  • 若要評估對出價最佳化的影響,您必須訓練兩個不同的機器學習模型,並用在兩個部分流量:一個以目前評估方法訓練而成的模型 (以目前評估方法訓練而成的模型 + 非第三方 Cookie 資料),以及一個根據 Attribution Reporting API 訓練的模型 + 非第三方 Cookie 資料並套用至實驗組。
  • 即使實驗組的流量較小,且訓練人口之間有重疊,模型訓練仍應根據測試者認為必須獲得最大成效而實際需要的流量多寡,比方說,利用所有流量進行訓練的現有第三方 Cookie 模型,並針對目標 1 啟用的所有 ARA 流量訓練 ARA 模型。
    • 如果您向 CMA 提交結果,請務必留意用於訓練不同模型的流量片段是否存在顯著差異 (例如,如果以 100% 的流量訓練第三方 Cookie 模型,但 ARA 模型僅根據 1% 的流量進行訓練),
  • 如果可以的話,實驗組和控制組出價模型的訓練時間應相同。
  • 請考量是否應在實驗期間持續訓練及更新出價模式。如果是的話,應該盡可能爭取流量,或只針對實驗組和控制組的流量進行訓練。
  • 不同的模型應用於不交集的流量區塊,做為 A/B 實驗。至於使用者在實驗組和控制組之間隨機分配或分配,建議您使用採用 Chrome 標籤的瀏覽器群組 (模式 A),或是透過隨機瀏覽器組合執行自己的實驗。我們不建議使用模式 B,因為缺少第三方 Cookie 會使報表難以記錄轉換指標。
    • 由 Chrome 輔助的瀏覽器群組會排除部分 Chrome 執行個體 (例如 Enterprise Chrome 使用者),但您自己的瀏覽器組合可能不會排除這些 Chrome 執行個體。因此,建議您只在模式 A 群組中或非模式 A/模式 B 群組執行實驗,以避免比較透過 Chrome 輔助群組取得的指標,與取得 Chrome 輔助群組外取得的指標資料。
    • 如果沒有使用協助已加上標籤的瀏覽器群組 (例如對其他流量進行實驗):
      • 以隨機且不偏誤的方式,以隨機方式分配使用者的比例和控制組。無論實驗群組設定為何,請評估實驗組和控制組的特性,確保實驗組和控制組互相比較。(請參閱第 15 節)。
      • 確保實驗組和控制組的使用者特徵和廣告活動設定都相同 (例如,在實驗組和控制組中都使用相似的地理區域)。(請參閱第 28 節)。
        • 具體範例包括:確保使用相同的歸因期和歸因邏輯評估類似的轉換類型、廣告活動指定類似目標對象、興趣群組和地理區域,並使用類似的廣告文案和廣告格式。
      • 確認實驗組和控制組的初始人口規模夠大,可彈性設定出價和實驗。
    • 如果使用 Chrome 協助已加上標籤的瀏覽器群組 (模式 A),Chrome 會處理將 Chrome 瀏覽器執行個體隨機化為群組的過程。建議您和先前一樣,先確認隨機化的結果,才會根據您的用途產生無偏誤 / 可比較的群組。

建議的分析重點

  • 建議您定義控制組和實驗組,並為每個實驗組使用不同的機器學習模型進行出價最佳化:
    • 控制組 1 - 使用根據目前評估方法訓練的出價最佳化模型 (第三方 Cookie + 非第三方 Cookie 資料)
    • (選用) 控制組 2 - 使用沒有 Privacy Sandbox 和第三方 Cookie 訓練的出價最佳化模型,也就是僅使用非第三方 Cookie 資料
      • 請注意,部分網站可能還是能使用部分第三方 Cookie。為取得最準確的結果,請勿在「控制組 2」和「實驗組」中使用這些第三方 Cookie 進行評估。
    • 實驗組 - 使用以 Attribution Reporting API 和非第三方 Cookie 資料訓練而成的出價最佳化模型
      • 請注意,部分網站可能還是能使用部分第三方 Cookie。為取得最準確的結果,請勿在「控制組 2」和「實驗組」中使用這些第三方 Cookie 進行評估。

指標

  • 定義哪些指標最適合您的業務來評估成果,並附上指標代表的意義和評估方式。
    • 舉例來說,這項指標可以是支出 (發布商收益),符合 CMA 的指南,有助於瞭解淘汰第三方 Cookie 對「單次曝光收益」的影響。詳情請參閱第 19 節
  • 如要製作轉換型指標的報表,請針對每個實驗組採用相同的評估方法,以避免多變數測試 (測試在一項實驗中對最佳化和報表的影響)。請參閱建議的範本表格,瞭解如何設定量化意見回饋格式。
  • 建議您使用其他方式來收集有關出價最佳化影響的指標,例如使用模擬出價。是否有任何模擬指標有助於瞭解第三方 Cookie 和 ARA 對出價模式的影響?
  • 請指定指標的依據是事件層級報表、摘要報表,還是兩份報表 (以及是否使用偵錯報表)。

資料分析

  • 涵蓋率:
    • 你能與第三方 Cookie 相較,針對類似的使用者進行評估嗎?你是否發現涵蓋率有任何變化 (例如應用程式至網站)?
    • 能否評估您或廣告客戶最關心的轉換 (和維度/指標)?
  • 群組之間的差異對下列項目有何影響:
    • 例如,廣告客戶報表:您可以記錄有多少百分比的重要轉換。
    • 例如進行訓練和最佳化時,模擬不同轉換資料對模型成效的影響。
  • 其他定性意見回饋:
    • ARA 對廣告客戶出價最佳化設定的複雜度有何影響?
    • ARA 能否幫助或阻礙廣告客戶專注於重視的指標和目標?

建議的出價範本表格

(出價) 表格 1:

市場參與者應提交至 CMA 的實驗結果範本表格範例 (取自第 18 頁,但測試人員應考量哪些指標最有意義 / 可行,可以視需要提供及調整表格)

實驗組與控制組 1
比較提議的結束狀態與目前狀態
實驗組與控制組 2
比較提議的結束狀態,但不含 PS API。
控制組 2 與控制組 1
比較使用和不使用第三方 Cookie 時 (未採用任何 PS API) 的出價最佳化。
評估方法 為了避免進行多變數測試,請使用第三方 Cookie 和非第三方 Cookie 資料,在每個實驗中評估兩個實驗組的轉換指標。
單次曝光收益 效果 效果 效果
標準錯誤 標準錯誤 標準錯誤
95% 信賴區間 95% 信賴區間 95% 信賴區間
(新增自己的指標)
(出價) 表 2:

報表範例表格:實驗組和控制組指標的描述性統計資料統計資料範例 (取自第 20 頁,但測試人員應考量哪些指標最有意義 / 可行,能夠視需要提供及調整表格)

實驗組
使用 ARA 和您使用的任何非第三方 Cookie 資料進行出價最佳化
控制組 1
使用第三方 Cookie 和任何使用的非第三方 Cookie 資料進行出價最佳化
控制組 2
僅使用非第三方 Cookie 資料進行出價最佳化
評估方法 為了避免進行多變數測試,請使用第三方 Cookie 和非第三方 Cookie 資料,評估所有實驗組的轉換指標。
單次曝光收益 平均值 平均值 平均值
標準差 標準差 標準差
第 25 和第 75 個百分位數 第 25 和第 75 個百分位數 第 25 和第 75 個百分位數
(新增您自己的指標)

目標 3 - 對匯總服務的負載測試

請參閱「匯總服務負載測試架構」。