サマリー レポートのノイズについて

ノイズとは何か、ノイズが加えられている箇所、ノイズが測定業務に及ぼす影響について説明します。

概要レポートは、集計可能レポートを集計した結果です。集計可能レポートがコレクタによってバッチ処理され、集計サービスによって処理されると、サマリー レポートにノイズ(ランダムな量のデータ)が追加されます。ユーザーのプライバシーを保護するために、ノイズが追加されます。このメカニズムの目的は、差分プライベート測定をサポートできるフレームワークを用意することです。

ノイズは、最終的な概要レポートに追加されます。

概要レポートのノイズの概要

現在、ノイズの追加は通常、広告測定には含まれていませんが、多くの場合、追加されたノイズによって結果の解釈が大きく変わることはありません。

次のように考えると役立つかもしれません。 特定のデータにノイズが含まれていなかったら、そのデータに基づいた意思決定を自信を持って行うことができるか。

たとえば、キャンペーン A のコンバージョン数が 15 件、キャンペーン B のコンバージョン数が 16 件であった場合、広告主は自信を持ってキャンペーン戦略や予算を変更できるでしょうか。

そうでない場合、ノイズは無関係です。

そのためには、次のように API の使用方法を構成します。

  1. 上記の質問に対する答えはイエスです。
  2. ノイズは、特定のデータに基づく意思決定に重大な影響を及ぼさないように管理されます。それには次のようにアプローチします。たとえば、目標とする最小コンバージョン数に対して、収集された指標のノイズを一定の割合未満に抑えることです。

このセクションと以降では、2.

基本コンセプト

集計サービスは、サマリー レポートがリクエストされるたびに、各サマリー値にノイズを追加します(つまり、キーごとに 1 回)。

これらのノイズ値は、以下で説明する特定の確率分布からランダムに取得されます。

ノイズに影響する要素はすべて、2 つの主要なコンセプトに依存しています。

  1. ノイズ分布(後述)は、サマリー値が低か高かにかかわらず同じです。したがって、サマリー値が高いほど、この値と比較してノイズの影響が小さくなります。

    たとえば、合計購入額の合計が 20,000 ドルと、購入額の合計が 200 ドルの両方に、同じ分布から選択されたノイズの影響があると仮定します。

    この分布のノイズがおよそ -100 ~+100 の範囲で変化するとします。

    • 合計購入額が 20,000 ドルの場合、ノイズは 0 ~ 100 ÷ 20,000=0.5% で変化します。
    • 合計購入額が 200 ドルの場合、ノイズは 0 ~ 100÷200=50% で変化します。

    したがって、ノイズは $20,000 の合計購入額への影響が $200 の価値よりも低い可能性が高いと考えられます。比較的言えば、20,000 ドルはノイズが少ない可能性が高い、つまり信号対雑音比が高い可能性が高いです。

    集計値が大きいほど、ノイズの影響が相対的に小さくなります。

    これには、いくつかの重要な実践的な影響があります。これについては、次のセクションで概説します。このメカニズムは API 設計の一部であり、実際の影響は長期的なものです。広告テクノロジーがさまざまな集計戦略を設計、評価する際には、引き続き重要な役割を果たします。

  2. ノイズは、サマリー値に関係なく同じ分布から抽出されますが、その分布は複数のパラメータに依存します。パラメータの 1 つである epsilon は、さまざまな有用性/プライバシーの調整を評価するために、最終的なオリジン トライアル中に広告テクノロジーによって変更される可能性があります。ただし、イプシロンを微調整する機能は一時的なものと考えてください。ユースケースやうまく機能するイプシロンの価値について、フィードバックをお寄せください。

広告テクノロジー企業がノイズを追加する方法を直接管理することはできませんが、ノイズが測定データに与える影響に影響を与える可能性があります。次のセクションでは、実際にノイズが及ぼす影響について詳しく説明します。

その前に、ノイズがどのように適用されるかを詳しく見てみましょう。

ズームイン: ノイズの適用方法

1 つのノイズ分布

ノイズは、次のパラメータを使用してラプラス分布から取得されます。

  • 0 の平均μ)。つまり、最も可能性の高いノイズ値は 0(ノイズを加えていない)であり、ノイズのある値は元の値よりも大きくなるほど小さくなります(これは「バイアスなし」と呼ばれることもあります)。
  • b = CONTRIBUTION_BUDGET / epsilonスケール パラメータ
    • CONTRIBUTION_BUDGET はブラウザで定義されます。
    • 集計サーバーで epsilon が修正されました。

次の図は、μ=0、b = 20 のラプラス分布の確率密度関数を示しています。

μ=0、b = 20 のラプラス分布の確率密度関数

ランダムなノイズ値、1 つのノイズ分布

広告テクノロジーが 2 つの集計キー(key1 と key2)の概要レポートをリクエストしているとします。

集計サービスは、同じノイズ分布に従って 2 つのノイズ値 x1 と x2 を選択します。キー 1 のサマリー値に x1 が追加され、キー 2 のサマリー値に x2 が追加されます。

これらの図では、ノイズ値を同一のものとして表しています。これは単純化です。実際には、ノイズ値は分布からランダムに取得されるため、変化します。

これは、ノイズ値がすべて同じ分布に由来し、適用先のサマリー値から独立していることを示しています。

ノイズのその他の特性

ノイズは、空の値(0)を含むすべてのサマリー値に適用されます。

サマリー値が空であっても、ノイズの影響を受けます。

たとえば、特定のキーの実際のサマリー値が 0 であっても、このキーの概要レポートに表示されるノイズの多いサマリー値は、0 になる可能性は低くなります。

ノイズには正の数値または負の数値を指定できます。

ポジティブノイズとネガティブノイズの例。

例えば、ノイズ購入前の量が 327,000 の場合、ノイズは、+6,000 または-6,000 とすることができる(これらは任意の例の値である)。

ノイズの評価

ノイズの標準偏差を計算する

ノイズの標準偏差は次のとおりです。

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)

イプシロン = 10 の場合、ノイズの標準偏差は次のようになります。

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

測定の差異が顕著なタイミングを評価する

集計サービスによって出力される各値に追加されたノイズの標準偏差がわかっているため、比較に適したしきい値を決定し、観測された差異がノイズによるものであるかどうかを判断できます。

たとえば、ある値に加えられたノイズが約 +/- 10(スケーリングを考慮)で、2 つのキャンペーン間の値の差が 100 を超える場合、各キャンペーン間で測定された値の差はノイズのみによるものではないと結論付けるのは安全です。

フィードバックを共有

この API に参加して試すことができます。

次のステップ