Rauschen in Zusammenfassungsberichten

Hier erfahren Sie, was Rauschen bedeutet, wo es hinzugefügt wird und wie es sich auf Ihre Analysen auswirkt.

Zusammenfassungsberichte sind das Ergebnis der Aggregation von aggregierbaren Berichten. Wenn aggregierbare Berichte von einem Collector in Batches zusammengefasst und vom Aggregationsdienst verarbeitet werden, werden den resultierenden Zusammenfassungsberichten Zufallsdaten hinzugefügt. Störsignale werden hinzugefügt, um die Privatsphäre der Nutzer zu schützen. Ziel dieses Mechanismus ist es, ein Framework zu haben, das differenziell private Analysen unterstützt.

Im abschließenden Zusammenfassungsbericht wird Rauschen hinzugefügt.

Abweichungen in zusammenfassenden Berichten

Das Hinzufügen von Rauschen ist heute zwar nicht Teil der Anzeigenmessung, in vielen Fällen ändert sich die Interpretation der Ergebnisse dadurch aber nicht wesentlich.

Stellen Sie sich dazu folgende Frage: Würden Sie sich sicher fühlen, eine Entscheidung auf der Grundlage eines bestimmten Datensatzes zu treffen, wenn diese Daten nicht verfälscht wären?

Wäre ein Werbetreibender beispielsweise bereit, seine Kampagnenstrategie oder seine Budgets zu ändern, weil Kampagne A 15 Conversions und Kampagne B 16 Conversions erzielt hat?

Wenn die Antwort „Nein“ lautet, ist Rauschen irrelevant.

Sie sollten die API-Nutzung so konfigurieren, dass:

  1. Die Antwort auf die obige Frage lautet „Ja“.
  2. Der Einfluss von Rauschen wird so verwaltet, dass er die Fähigkeit, auf der Grundlage bestimmter Daten eine Entscheidung zu treffen, nicht wesentlich beeinträchtigt. Sie können so vorgehen: Bei einer erwarteten Mindestanzahl von Conversions soll der Anteil an ungültigen Daten beim erfassten Messwert unter einem bestimmten Prozentsatz liegen.

In diesem und den folgenden Abschnitten werden Strategien beschrieben, wie Sie Punkt 2 erreichen.

Wichtige Konzepte

Der Aggregationsdienst fügt jedem Zusammenfassungswert (d. h. einmal pro Schlüssel) jedes Mal, wenn ein Zusammenfassungsbericht angefordert wird, Rauschen hinzu.

Diese Rauschwerte werden zufällig aus einer bestimmten Wahrscheinlichkeitsverteilung gezogen, die unten beschrieben wird.

Alle Elemente, die sich auf den Lärm auswirken, beruhen auf zwei Hauptkonzepten.

  1. Die Rauschverteilung (Details unten) ist unabhängig vom Wert der Zusammenfassung gleich, egal ob dieser niedrig oder hoch ist. Je höher der zusammengefasste Wert ist, desto geringer ist die Wahrscheinlichkeit, dass sich das Rauschen auf diesen Wert auswirkt.

    Angenommen, sowohl ein aggregierter Gesamtkaufwert von 20.000 € als auch ein aggregierter Gesamtkaufwert von 200 € unterliegen Rauschen,das aus derselben Verteilung ausgewählt wurde.

    Angenommen, der Rauschenanteil dieser Verteilung variiert ungefähr zwischen -100 und +100.

    • Bei einem zusammengefassten Kaufwert von 20.000 $liegt die Abweichung zwischen 0 und 100 ÷ 20.000=0,5%.
    • Bei einem zusammengefassten Kaufwert von 200 € variiert der Rauschanteil zwischen 0 und 100/200=50%.

    Daher haben Abweichungen wahrscheinlich weniger Auswirkungen auf den aggregierten Kaufwert von 20.000 $als auf den Wert von 200 $. Im Vergleich dazu ist bei 20.000 $ wahrscheinlich weniger Rauschen vorhanden, d. h., es hat wahrscheinlich ein höheres Signal-Rausch-Verhältnis.

    Bei höheren aggregierten Werten ist der Einfluss von Rauschen relativ geringer.

    Das hat einige wichtige praktische Auswirkungen, die im nächsten Abschnitt erläutert werden. Dieser Mechanismus ist Teil des API-Designs und die praktischen Auswirkungen sind langfristig. Sie werden auch weiterhin eine wichtige Rolle spielen, wenn Anbieter von Anzeigentechnologien verschiedene Aggregationsstrategien entwickeln und bewerten.

  2. Der Rausch wird unabhängig vom Summenwert aus derselben Verteilung gezogen, die jedoch von mehreren Parametern abhängt. Einer dieser Parameter, Epsilon, kann während des abgeschlossenen Herkunftstests von Anbietern von Anzeigentechnologien geändert werden, um verschiedene Anpassungen für Nützlichkeit und Datenschutz zu bewerten. Die Möglichkeit, den Wert für „Epsilon“ anzupassen, ist jedoch nur vorübergehend. Wir freuen uns über Ihr Feedback zu Ihren Anwendungsfällen und den Werten von Epsilon, die gut funktionieren.

Anbieter von Anzeigentechnologien haben zwar keine direkte Kontrolle darüber, wie Rauschen hinzugefügt wird, aber sie können die Auswirkungen von Rauschen auf ihre Messdaten beeinflussen. In den nächsten Abschnitten erfahren Sie, wie sich Rauschen in der Praxis beeinflussen lässt.

Sehen wir uns zuerst an, wie Rauschen angewendet wird.

Heranzoomen: So wird Rauschen angewendet

Eine Geräuschverteilung

Der Rausch wird aus der Laplace-Verteilung mit den folgenden Parametern gezogen:

  • einen Mittelwert (μ) von 0. Das bedeutet, dass der wahrscheinlichste Rauschwert 0 ist (kein Rauschen hinzugefügt) und dass der fehlerhafte Wert mit der gleichen Wahrscheinlichkeit kleiner als das Original ist wie größer (dies wird manchmal als unvoreingenommen bezeichnet).
  • Ein Maßstabparameter von b = CONTRIBUTION_BUDGET ÷ epsilon.
    • CONTRIBUTION_BUDGET wird im Browser definiert.
    • epsilon wird im Aggregationsdienst verwendet.

Das folgende Diagramm zeigt die Wahrscheinlichkeitsdichtefunktion für eine Laplace-Verteilung mit μ=0 und b = 20:

Wahrscheinlichkeitsdichtefunktion für eine Laplace-Verteilung mit μ=0, b = 20

Zufallsrauschenwerte, eine Rauschverteilung

Angenommen, eine Anzeigentechnologie fordert Zusammenfassungsberichte für zwei Aggregationsschlüssel an, „Schlüssel1“ und „Schlüssel2“.

Der Aggregationsdienst wählt zwei Rauschwerte x1 und x2 mit der gleichen Rauschverteilung aus. x1 wird dem Summenwert für Schlüssel 1 und x2 dem Summenwert für Schlüssel 2 hinzugefügt.

In den Diagrammen werden die Rauschwerte als identisch dargestellt. Das ist eine Vereinfachung. In Wirklichkeit variieren die Rauschwerte, da sie zufällig aus der Verteilung gezogen werden.

Das zeigt, dass die Rauschwerte alle aus derselben Verteilung stammen und unabhängig vom zusammengefassten Wert sind, auf den sie angewendet werden.

Weitere Eigenschaften von Rauschen

Rauschen wird auf jeden Summenwert angewendet, einschließlich leerer Werte (0).

Auch leere Summenwerte sind von Rauschen betroffen.

Selbst wenn der tatsächliche Summenwert für einen bestimmten Schlüssel beispielsweise 0 ist, ist der Summenwert mit Rauschen, der im Zusammenfassungsbericht für diesen Schlüssel angezeigt wird, höchstwahrscheinlich nicht 0.

Der Rauschenwert kann eine positive oder eine negative Zahl sein.

Beispiele für positiven und negativen Rauschen

Bei einem Kaufbetrag vor Abzug von Störfaktoren von 327.000 € kann der Störfaktor beispielsweise +6.000 oder −6.000 € betragen (dies sind willkürliche Beispielwerte).

Rauschen bewerten

Standardabweichung des Rauschens berechnen

Die Standardabweichung des Rauschens ist:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Beispiel

Bei Epsilon = 10 beträgt die Standardabweichung des Rauschens:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Messunterschiede bewerten

Da Sie die Standardabweichung des Rauschens kennen, das jedem vom Aggregationsdienst ausgegebene Wert hinzugefügt wird, können Sie geeignete Grenzwerte für den Vergleich festlegen, um festzustellen, ob beobachtete Unterschiede auf Rauschen zurückzuführen sein könnten.

Wenn der einem Wert hinzugefügte Rauschen beispielsweise etwa +/- 10 beträgt (unter Berücksichtigung der Skalierung) und die Differenz des Werts zwischen zwei Kampagnen über 100 liegt, lässt sich mit hoher Wahrscheinlichkeit daraus schließen, dass die Differenz des gemessenen Werts zwischen den einzelnen Kampagnen nicht nur auf Rauschen zurückzuführen ist.

Reagieren und Feedback geben

Sie können an dieser API teilnehmen und sie testen.

Nächste Schritte