測定テストガイド

このガイドの目的は、Privacy Sandbox Attribution Reporting API のスタンドアロン テストを実施するためのガイダンスを提供することです。詳しくは、セクション 12 をご覧ください。

  • CMA のテスト デザイン 1 および 2 におけるコントロール群とトリートメント群の結果の測定については、Relevance API のテスト ガイダンスをご覧ください。これらのテストの目的は Protected Audience と Topics の使用の有効性を検証することであるためです。詳しくは、セクション 11 をご覧ください。

始める前に

評価の目標と提案するテストの設定

目標 1 - レポートにおける Attribution Reporting API の有効性を判断する

レポートへの影響を測定するための A/A 設定の提案

  • この提案は、コンバージョン ベースの指標の評価に関する CMA のガイダンスに沿っています。詳しくは、セクション 21セクション 12 をご覧ください。
  • Attribution Reporting API(ARA)のテストでは、2 つの異なる測定方法(サードパーティ Cookie + 非サードパーティ Cookie および ARA + 非サードパーティ Cookie データ)を使用して同じインプレッション セットのコンバージョンを同時に測定できるため、モード A/B よりもこの方法をおすすめします。
  • また、A/A テストでは、コンバージョン測定に対する Attribution Reporting API の影響も切り分けることができます(たとえば、サードパーティ Cookie の不足によるコンバージョン率の変化を回避します)。

推奨される分析ポイント

  • サードパーティ Cookie とプライバシー サンドボックス API の両方を含み、統計的に有意な結果を得るのに十分な大きさのトラフィックを選択します。サードパーティ Cookie を無効にするモード B を除くすべてのトラフィックを対象とするのが理想的です。
    • サードパーティ Cookie は利用できず、ARA の結果をサードパーティ Cookie ベースのアトリビューションの結果と比較できないため、A/A テストではモード B を除外することをおすすめします。
    • モード B を含める場合は、トラフィックのモード B スライスのデバッグ レポートを有効にすることを検討してください。デバッグ レポートは、構成や実装に関する問題のトラブルシューティングに役立ちます。
  • テスト対象を少量のトラフィックで行うと、測定結果は想定よりもノイズが多いものになると見込まれます。分析では、使用されたトラフィックの割合と、ノイズのあるレポートとノイズのないデバッグ レポートのどちらに基づいて結果を報告しているかを記録することをおすすめします。
    • サマリー レポートの場合、サマリー値は低くなる可能性があり、集計サービスでは、サマリー値に関係なく、同じ分布からノイズが追加されます。
  • トラフィックのスライスでさまざまな測定方法をテストする
    • コントロール グループ 1 - 現在の測定方法(サードパーティ Cookie + 非サードパーティ Cookie のデータ)を使用する
    • (省略可)コントロール 2 - プライバシー サンドボックスもサードパーティ Cookie もなし(つまり、非サードパーティ Cookie データのみ)
      • なお、一部のサイトではサードパーティ Cookie がまだ使用可能な場合があります。最も正確な結果を得るには、コントロール 2 または処理手法での測定にサードパーティ Cookie を使用しないでください。
    • 取り扱い - プライバシー サンドボックスの API と非サードパーティ Cookie のデータ
      • なお、一部のサイトではサードパーティ Cookie がまだ使用可能な場合があります。最も正確な結果を得るには、コントロール 2 または処理手法での測定にサードパーティ Cookie を使用しないでください。

指標

  • ビジネスの成果測定に適した指標を定義し、指標の意味と測定方法について説明します。
    • 広告主にとって重要なディメンションと指標に重点を置くことをおすすめします。たとえば、広告主が購入コンバージョンを重視している場合は、それらのコンバージョン数と購入額を測定します。
  • コンバージョン単価(コンバージョン単価など)ではなく、合計数または合計(コンバージョン率など)に基づく指標のほうが適しています。A/A 分析の場合、費用の指標はコンバージョン値の数または合計から完全に導出できます。
  • 指標が、イベントレベル レポート、概要レポート、またはその両方の組み合わせに基づくか(デバッグ レポートが使用されたか)を指定します。
  • 定量的フィードバックのフォーマット方法については、推奨されるテンプレート表をご覧ください。

分析

  • カバレッジ:
    • サードパーティ Cookie と同様のユーザー セットを対象に測定できますか?カバレッジは拡大していますか(アプリからウェブなど)。
    • 自社または広告主が最も重視しているコンバージョン(およびディメンションまたは指標)を測定できますか?
  • 定量的フィードバック
    • 広告主様のレポートでは、たとえば、その広告主様についてレポートできる主要なコンバージョンの割合や、レポートの品質基準を満たしているキャンペーンの割合(品質バーを導き出すと、コンバージョン数が少ないキャンペーンの調整に役立ちます)
    • たとえば、広告主別に分類すると、現在、レポートでサードパーティ Cookie の使用を増減している広告主がいるか?
  • その他の定性的フィードバック:
    • ARA は広告主の測定/アトリビューション設定の複雑さにどのように影響しますか?
    • ARA は、広告主が重要な指標や目標を重視する際に役立ちますか、または妨げになりますか?

影響をレポートするための推奨テンプレート表

(レポート)表 1:

実験結果を CMA に報告するためのテンプレート表の例18 ページを引用しますが、テスターはどの指標が最も有意義で、どの指標を提供できるかを検討し、必要に応じて表を適応させる必要があります)

トリートメントとコントロール 1
提案された最終状態と現在の状態を比較
トリートメントとコントロール 2
PS API をまったく使用しない提案された最終状態を比較します。
コントロール 2 とコントロール 1
サードパーティ Cookie ありとなし、PS API なしのコンバージョン測定を比較します。
測定方法 トリートメント(非サードパーティ Cookie のデータを含む AAR)のコンバージョン測定を、コントロール 1(サードパーティ Cookie および非サードパーティ Cookie のデータ)と比較する トリートメント(非サードパーティ Cookie データを使用した AAR)とコントロール 2(非サードパーティ Cookie データのみ)のコンバージョン測定を比較する コントロール 2(サードパーティ Cookie 以外のデータのみ)とコントロール 1(サードパーティ Cookie および非サードパーティ Cookie のデータ)のコンバージョン測定を比較する
1 ドルあたりのコンバージョン数 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
合計コンバージョン数 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
コンバージョン率 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
(独自の指標を追加)
(レポート)表 2:

トリートメント グループとコントロール グループの指標に関する記述統計をレポートするためのテンプレート テーブルの例(出典: 20 ページ、ただしテスターはどの指標が最も有意義で、必要に応じて表を適応させて提供できるかを検討する必要があります)

指標 処理方法
ARA および使用している非サードパーティ Cookie データを使用したコンバージョン測定
コントロール 1
サードパーティ Cookie およびお客様が使用しているサードパーティ Cookie データを使用したコンバージョン測定
コントロール 2
非サードパーティ Cookie データのみを使用したコンバージョン測定
1 ドルあたりのコンバージョン数 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
合計コンバージョン数 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
コンバージョン率 平均 平均 平均
標準偏差 標準偏差 標準偏差
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
(独自の指標を追加)

目標 2 - 入札の最適化における Attribution Reporting API の有効性を判断する

入札単価の最適化への効果を測定するための A/B 設定を提案します。

  • 入札の最適化への影響を測定するには、2 種類の機械学習モデルをトレーニングし、2 種類のトラフィック スライスで使用します。1 つは現在の測定方法(サードパーティ Cookie + 非サードパーティ Cookie データ)でトレーニングしたモデルで、コントロール群に Attribution Reporting API + 非サードパーティ Cookie データでトレーニングしたモデルを、トリートメント群に適用します。
  • モデルのトレーニングは、トリートメント群がトラフィックのより小さな部分であり、トレーニング集団間で重複があっても、テスターがパフォーマンスを最大化するために必要な量のトラフィックに基づいて行う必要があります(たとえば、すべてのトラフィックでトレーニングしている既存のサードパーティ Cookie モデルを使用し、目標 1 で有効になっているすべての ARA トラフィックで ARA モデルをトレーニングします)。
    • CMA に結果を送信する場合は、さまざまなモデルのトレーニングに使用されているトラフィック スライスに大きな差異がないか確認します(たとえば、サードパーティの Cookie ベースのモデルはトラフィックの 100% でトレーニングされるが、ARA ベースのモデルはトラフィックの 1% でのみトレーニングされる場合など)。
  • 可能であれば、トリートメント入札モデルとコントロール入札モデルの両方のトレーニングは、同じ時間で行うようにします。
  • テスト中に入札モデルのトレーニングと更新を継続的に行うべきかどうか、更新する場合は、できるだけ多くのトラフィックでトレーニングするか、トリートメント群とコントロール群のトラフィックのみについてトレーニングするかを検討します。
  • これらの異なるモデルは、A/B テストとして、互いに素なトラフィックのスライスに対して使用する必要があります。トリートメント群とコントロール群の間でユーザーのランダム化と割り当てを行うには、Chrome を利用したラベル付きブラウザ グループ(モード A)を使用するか、ランダムなブラウザ セットで独自のテストを実施することをおすすめします。モード B はおすすめしません。サードパーティ Cookie がないと、コンバージョン ベースの指標のレポート作成が難しくなります。
    • Chrome を利用したブラウザ グループは、一部の Chrome インスタンス(企業 Chrome ユーザーなど)を除外します。これらの Chrome インスタンスは、ランダムなブラウザセットによって除外されない場合があります。そのため、テストはモード A のグループ、またはモード A/モード B 以外のグループでのみ実施してください。そうすることで、Chrome によって促進されたグループから得られた指標と、Chrome によって促進されたグループ以外から得られた指標が比較されることがなくなります。
    • Chrome がサポートするラベル付きブラウザ グループを使用しない場合(他のトラフィックでテストを実施する場合など):
      • トリートメント群とコントロール群の配分はランダムに、かつバイアスがないようにする。テストグループの設定にかかわらず、トリートメント群とコントロール群の特徴を評価して、トリートメント グループとコントロール グループが比較可能であることを確認します。(セクション 15 をご覧ください)。
      • トリートメント グループとコントロール グループのユーザーの特性とキャンペーン構成が同じになるようにします(たとえば、トリートメント グループとコントロール グループの両方で類似した地域を使用します)。(セクション 28 を参照)。
        • 具体例としては、類似したコンバージョンの種類が同じアトリビューション期間とアトリビューション ロジックで測定されるようにすること、キャンペーンで類似ユーザー、インタレスト グループ、地域をターゲットに設定し、類似の広告コピーと広告フォーマットを使用していることなどがあります。
      • トリートメント グループとコントロール グループの初期母集団のサイズを、入札とテストを柔軟に行えるよう十分な大きさにします。
    • Chrome がサポートするラベル付きブラウザ グループ(モード A)を使用している場合、Chrome ブラウザ インスタンスのグループに対するランダム化は Chrome によって処理されます。前と同様に、ランダム化により、目的に対してバイアスのない、同等のグループになることをチェックすることをおすすめします。

推奨される分析ポイント

  • コントロール群とトリートメント群を定義し、テスト群ごとに異なる機械学習モデルを使用して入札単価を最適化することをおすすめします。
    • コントロール グループ 1 - 現在の測定方法(サードパーティ Cookie + 非サードパーティ Cookie データ)でトレーニングされた入札単価の最適化モデルを使用する
    • (省略可)コントロール 2 - プライバシー サンドボックスもサードパーティ Cookie もない(つまり、サードパーティ以外の Cookie データのみ)トレーニングされた入札最適化モデルを使用する
      • なお、一部のサイトではサードパーティ Cookie がまだ使用可能な場合があります。最も正確な結果を得るには、コントロール 2 または処理手法での測定にサードパーティ Cookie を使用しないでください。
    • 処理 - Attribution Reporting API と非サードパーティ Cookie のデータでトレーニングされた入札単価最適化モデルを使用する
      • なお、一部のサイトではサードパーティ Cookie がまだ使用可能な場合があります。最も正確な結果を得るには、コントロール 2 または処理手法での測定にサードパーティ Cookie を使用しないでください。

指標

  • ビジネスの成果測定に適した指標を定義し、指標の意味と測定方法について説明します。
    • たとえば、費用(パブリッシャーの収益)を有意な指標として定義できます。これは、サードパーティ Cookie の廃止が「インプレッションあたりの収益」に与える影響を理解するという CMA のガイダンスに即しています。詳しくはセクション 19 をご覧ください。
  • コンバージョン ベースの指標でレポートを作成する場合は、多変量テスト(最適化とレポートの効果を 1 つのテストでテストする)を避けるために、各群で同じ測定方法を使用する必要があります。定量的フィードバックのフォーマット方法については、推奨されるテンプレート表をご覧ください。
  • 入札単価のシミュレーションなど、入札単価の最適化による影響に関する指標を収集する他の方法も検討してください。サードパーティ Cookie と ARA が入札モデルに与える影響を把握するのに役立つシミュレーション指標はありますか?
  • 指標が、イベントレベル レポート、概要レポート、またはその両方の組み合わせに基づくか(デバッグ レポートが使用されたか)を指定します。

分析

  • カバレッジ:
    • サードパーティ Cookie と同様のユーザー セットを対象に測定できますか?カバレッジに変化はありましたか(アプリからウェブなど)?
    • 自社または広告主が最も重視しているコンバージョン(およびディメンション/指標)を測定できますか?
  • 各グループの違いは、以下にどのような影響を与えますか。
    • 広告主様がレポートに含めることができる主要なコンバージョンの割合などです。
    • たとえば、トレーニングと最適化では、さまざまなコンバージョン データがモデルのパフォーマンスに与える影響をシミュレートします。
  • その他の定性的フィードバック:
    • ARA は入札単価の最適化設定の複雑さにどう影響しますか。
    • ARA によって、広告主様は重要な指標や目標に的を絞ることができるようになりますか、または妨げになりますか?

入札の影響について推奨されるテンプレート表

(入札)表 1:

市場参加者が CMA に提出する必要があるテスト結果のテンプレート表の例(出典: 18 ページ、ただしテスターはどの指標が最も有意義で、必要に応じて表を適応させて適用できるかを検討する必要があります)

トリートメントとコントロール 1
提案された最終状態と現在の状態を比較
トリートメントとコントロール 2
PS API をまったく使用しない提案された最終状態を比較します。
コントロール 2 とコントロール 1
サードパーティ Cookie がある場合とない場合、PS API なしで入札の最適化を比較します。
測定方法 多変量テストを回避するには、サードパーティ Cookie と非サードパーティ Cookie のデータを使用して、両方のテスト群でコンバージョン ベースの指標を測定します。
インプレッションあたりの収益 効果 効果 効果
標準誤差 標準誤差 標準誤差
95% の信頼区間 95% の信頼区間 95% の信頼区間
(独自の指標を追加)
(入札)表 2:

トリートメント グループとコントロール グループの指標に関する記述統計をレポートするためのテンプレート テーブルの例(出典: 20 ページ、ただしテスターはどの指標が最も有意義で、必要に応じて表を適応させて提供できるかを検討する必要があります)

取り扱い
ARA と使用する非サードパーティ Cookie データを使用した入札の最適化
コントロール 1
サードパーティ Cookie および使用するサードパーティ Cookie 以外のデータを使用した入札の最適化
コントロール 2
非サードパーティ Cookie データのみを使用した入札の最適化
測定方法 多変量テストを回避するには、サードパーティ Cookie と非サードパーティ Cookie のデータを使用して、すべてのテスト群でコンバージョン ベースの指標を測定します。
インプレッションあたりの収益 平均 平均 平均
Standard deviation Standard deviation Standard deviation
25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル 25 パーセンタイルと 75 パーセンタイル
(独自の指標を追加)

目標 3 - 集計サービスの負荷テスト

集計サービスの負荷テスト フレームワークをご覧ください。