Noise Injection

Noise Injection (Einfügen von Rauschen) ist eine Technik, die zum Schutz der Privatsphäre der Nutzer beim Abfragen von Datenbanken eingesetzt wird. Dabei wird einer SELECT-Anweisung für die Aggregation einer Abfrage zufälliges Rauschen hinzugefügt. Dieses Rauschen schützt die Privatsphäre des Nutzers und liefert dabei relativ genaue Ergebnisse. Die Notwendigkeit von Differenzprüfungen entfällt und der erforderliche Aggregationsschwellenwert für die Ausgabe wird reduziert. Die meisten vorhandenen Abfragen können im Rauschmodus ausgeführt werden. Es gibt aber einige Einschränkungen.

Die Vorteile von „Noise Injection“

Keine Differenzprüfungen erforderlich:Wird „Noise Injection“ bei Abfragen eingesetzt, werden keine Zeilen aufgrund von Ähnlichkeiten mit früheren Ergebnismengen herausgefiltert. So erhalten Sie einen ganzheitlichen Überblick über die Daten und schützen gleichzeitig die Privatsphäre der Nutzer.

Vereinfachte Problembehebung: Zeilen werden nur aufgrund von Aggregationsanforderungen ausgelassen, was die Fehlersuche und Anpassung von Abfragen vereinfacht.

Keine neue Syntax: Sie müssen sich nicht mit einer neuen Abfragesyntax vertraut machen oder mit Datenschutzkonzepten auseinandersetzen, um „Noise Injection“ anstelle von Differenzprüfungen zu verwenden.

Genauigkeit der Ergebnisse wird angegeben:Bei einem erfolgreichen Job wird der Gesamtprozentsatz der Daten angezeigt, die von Rauschen betroffen sein könnten.

Auswirkungen von Rauschen auf Datenschutzanforderungen

Differenzprüfungen: „Noise Injection“ stützt sich nicht auf bestehende Differenzprüfungen in Ads Data Hub. Wenn Sie die Technik verwenden, werden Differenzprüfungen deaktiviert.

Aggregationsanforderung: Bei Verwendung von „Noise Injection“ werden Impressionsdaten ausgegeben, die von mindestens 20 einzelnen Nutzern stammen, sowie Klick- oder Conversion-Daten, die von mindestens 10 einzelnen Nutzern stammen.

Statische Prüfungen: Keine Auswirkungen.

Kontingente und Abfragebegrenzungen:Ähnlich wie bei Differenzprüfungen gibt es bei der Rauschinjektion Begrenzungen für die Häufigkeit, mit der dieselbe Abfrage für denselben Datensatz ausgeführt werden kann. Wenn Sie dieselben aggregierten Ergebnisse in einer einzelnen Abfrage oder bei mehreren Abfrageausführungen neu berechnen, verlieren Sie möglicherweise den Zugriff auf häufig abgefragte Daten im Datensatz. Dies kann passieren, wenn Sie Abfragen mit Gleitfenster ausführen oder dieselbe Anfrage mehrmals stellen. Weitere Informationen finden Sie unter Wiederholte Ergebnisse.

Weitere Informationen zu Datenschutzprüfungen

Auswirkungen von „Noise Injection“ auf die Ergebnisse

Mit „Noise Injection“ wird in Ads Data Hub das Risiko von Offenlegungen gemindert, also das Risiko, dass Unbefugte Informationen über einen einzelnen Nutzer in Erfahrung bringen können. Sie schafft ein Gleichgewicht zwischen dem Schutz der Privatsphäre und der Funktionalität.

Durch „Noise Injection“ werden die Ergebnisse in Ads Data Hub so transformiert:

Die Nutzerbeiträge, die Ausreißer darstellen, werden in aggregierten Ergebnissen eingeschränkt. Die Beiträge der einzelnen Nutzer werden in jeder Aggregation summiert und für jede Aggregation werden dann minimale und maximale Grenzwerte festgelegt.
Die eingeschränkten Beiträge der einzelnen Nutzer werden aggregiert.
Jedem aggregierten Ergebnis – dem Ergebnis jedes Aggregationsfunktionsaufrufs in jeder Zeile – wird Rauschen hinzugefügt. Das Ausmaß dieses zufälligen Rauschens ist proportional zu den festgelegten Grenzen.
Es wird eine verrauschte Nutzerzahl für jede Zeile berechnet und Zeilen mit zu wenigen Nutzern werden ausgeschlossen. Das funktioniert ähnlich wie bei der k-Anonymität im Differenzprüfungsmodus, allerdings können aufgrund des Rauschens bei Jobs, die im selben Datensatz ausgeführt werden, verschiedene Zeilen ausgeschlossen werden. Außerdem werden im Rauschmodus weniger Zeilen ausgeschlossen, weil die Aggregationsanforderung geringer ist (ca. 20 im Vergleich zu 50).

Das Endergebnis ist ein Datensatz, in dem jede Zeile verrauschte aggregierte Ergebnisse enthält und kleine Gruppen ausgeschlossen wurden. Dadurch wird der Einfluss eines einzelnen Nutzers auf die ausgegebenen Ergebnisse verschleiert.

Einschränkungen der Aggregation

Bei Verwendung von „Noise Injection“ in Ads Data Hub wird die Aggregation implizit oder explizit eingeschränkt, um Nutzerbeiträge, die Ausreißer darstellen, zu begrenzen. Je nach Anwendungsfall können Sie wählen, welche Art der Einschränkung Sie verwenden möchten.

Implizite Einschränkung

Dafür ist keine spezielle SQL-Syntax erforderlich. Die implizite Begrenzung wird standardmäßig angewendet. Implizite Grenzen werden aus den Daten selbst abgeleitet und für jede Aggregation festgelegt. Wenn einige Aggregationen einen breiteren Wertebereich als andere haben, kann die implizite Begrenzung gegebenenfalls unterschiedliche Begrenzungen für verschiedene Aggregationen ableiten. Dies führt in der Regel zu weniger Fehlern. Die Beiträge der einzelnen Nutzer werden automatisch auf 1 begrenzt.COUNT(DISTINCT user_id)

Explizite Einschränkung

Durch die explizite Einschränkung wird der Gesamtbeitrag jedes Nutzers auf einen bestimmten Bereich begrenzt. Explizite Grenzen werden einheitlich auf alle Aggregationen angewendet und müssen Literalwerte sein. Eine explizite Begrenzung kann bessere Ergebnisse liefern, wenn die Grenzen allgemein bekannt sind. Beispielsweise spiegelt die Begrenzung des Alters zwischen 0 und 100 die öffentlichen Informationen wider, da das Alter der meisten Menschen im Allgemeinen in diesen Bereich fällt.

Ads Data Hub bietet zusätzliche ADH.ANON-Aggregatfunktionen für die explizite Begrenzung. Um eine explizite Einschränkung zu verwenden, legen Sie die Grenzen für jede unterstützte Aggregatfunktion fest, indem Sie Ganzzahlen für die untere und obere Grenze angeben. Beispiel:

SELECT
campaign_name,
-- Set lower and upper bounds to 0 and 1, respectively
ADH.ANON_COUNT(*, contribution_bounds_per_group => (0,1))
FROM data
GROUP BY 1

Abfrage mit Noise Injection ausführen

Öffnen Sie einen Bericht.
Klicken Sie auf die Ein/Aus-Schaltfläche für Einstellungen für Datenschutzrauschen, um Rauschen verwenden zu aktivieren.
Führen Sie die Abfrage aus.
Prüfen Sie die Auswirkungen des hinzugefügten Rauschens.
Optional: Passen Sie die Abfrage an, um die Auswirkungen des Rauschens zu reduzieren.

Auswirkungen des Rauschens prüfen

Nachdem ein Job erfolgreich abgeschlossen wurde, wird in der Datenschutzübersicht die Zuverlässigkeit des Ergebnisses angezeigt. Die Zuverlässigkeit basiert auf dem Prozentsatz der Zellen in der Ausgabe, die stark von Rauschen beeinflusst sein können. Die Auswirkung auf einen Wert in der Ergebnistabelle wird als hoch eingestuft, wenn das Ausmaß des hinzugefügten Rauschens höher als 5 % des Ergebnisses in der Zelle ist.

Für entsprechende Ausgabedatensätze werden in der Datenschutzzusammenfassung die zehn Spalten mit dem meisten Rauschen in absteigender Reihenfolge mit dem entsprechenden Beitrag zum Rauschen aufgeführt. Hier ist die Aufschlüsselung der Labels für die Auswirkungen von Rauschen.

% der betroffenen Ergebnisse	Farbe der Anzeige	Auswirkungen
<5 %	Grün	Geringe Auswirkungen
5–15 %	Gelb	Mittlere Auswirkungen
15–25 %	Orange	Hohe Auswirkungen
> 25%	Rot	Sehr hohe Auswirkungen

Sie können sich auch eine Vorschau der Datenschutzzusammenfassung für die letzten Berichtsjobs auf der Seite Startseite ansehen. Wenn Sie sich eine Vorschau der Datenschutzeinstellungen für einen bestimmten Job ansehen möchten, bewegen Sie den Mauszeiger auf das Symbol für Datenschutztipps privacy_tip auf der Jobkarte unter Letzte Aktivität.

Abfragen anpassen

Aggregationen sind eher von Rauschen betroffen, wenn nur wenige Nutzer zum Ergebnis beitragen. Dies kann vorkommen, wenn Aggregationen aus kleinen Nutzergruppen berechnet werden oder wenn einige Nutzer keinen Einfluss auf die Ergebnisse haben, z. B. bei Verwendung der Funktion COUNTIF. Anhand des Rauschberichts können Sie Ihre Abfrage anpassen, um den Prozentsatz der betroffenen Ergebnisse zu reduzieren.

Nachstehend finden Sie allgemeine Hinweise:

Erweitern Sie den Zeitraum.
Ändern Sie die Abfrage, um den Detaillierungsgrad der Daten zu reduzieren. Dazu können Sie beispielsweise nach weniger Parametern gruppieren oder COUNTIF durch COUNT ersetzen.
Entfernen Sie Spalten mit viel Rauschen.
Verwenden Sie die explizite Einschränkung, wenn sinnvolle Grenzen festgelegt werden können.

Unterstützte Aggregatfunktionen

Für folgenden Aggregatfunktionen wird Rauschen unterstützt:

SUM(...)
COUNT(*)
COUNT(...)
COUNTIF(...)
COUNT(DISTINCT ...)
APPROX_COUNT_DISTINCT(...)
AVG(...)

Das Keyword DISTINCT wird nur mit der Funktion COUNT unterstützt. Bei Verwendung mit einem direkten Verweis auf die Spalte user_id aus einer Ads Data Hub-Tabelle oder einem Ausdruck, der entweder user_id oder NULL zurückgibt, z. B. COUNT(DISTINCT IF(..., user_id, NULL)), werden die Funktionen COUNT DISTINCT und APPROX_COUNT_DISTINCT(...) berechnet, indem der Beitrag pro Nutzer auf 1 begrenzt wird. Wenn COUNT DISTINCT auf eine Spalte verweist, die nicht user_id ist, wird sie mit APPROX_COUNT_DISTINCT mit impliziter Begrenzung angenähert.

Zusätzliche Aggregatfunktionen

Neben regulären Aggregatoren bietet Ads Data Hub zusätzliche ADH.ANON-Aggregationsfunktionen, die explizites Begrenzen unterstützen. Diese Aggregatoren haben die gleiche Syntax wie die differenziell privaten Aggregatfunktionen von BigQuery, erfordern jedoch nicht die WITH DIFFERENTIAL_PRIVACY-Klausel:

ADH.ANON_SUM( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( *, [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_AVG( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_PERCENTILE_CONT( ..., percentile, contribution_bounds_per_row => (lower_bound, upper_bound) )
ADH.ANON_COUNT_DISTINCT( ..., [ max_contributions_per_group => upper_bound ] )

Parameter ADH.ANON_SUM, ADH.ANON_COUNT und ADH.ANON_AVG:

contribution_bounds_per_group: Beiträge pro Nutzer werden für jede Partition, die durch die GROUP BY-Schlüssel definiert ist, eingeschränkt. Die Ober- und Untergrenzen werden auf Werte pro Gruppe angewendet, nachdem die Werte pro Nutzer aggregiert wurden.
lower_bound: Numerisches Literal, das den kleinsten Wert darstellt, der in eine Aggregation aufgenommen werden soll.
upper_bound: Numerisches Literal, das den größten Wert darstellt, der in eine Aggregation aufgenommen werden soll.

ADH.ANON_PERCENTILE_CONT-Parameter:

percentile: Das zu berechnende Perzentil, ein Literal im Bereich [0, 1].
contribution_bounds_per_row: Beiträge pro Nutzer werden pro Zeile (pro Datensatz) eingeschränkt. Für das Perzentil sind explizite Begrenzungen erforderlich. Daher wird es nur als zusätzliche Funktion unterstützt.
lower_bound: Numerisches Literal, das den kleinsten Wert darstellt, der in eine Aggregation aufgenommen werden soll.
upper_bound: Numerisches Literal, das den größten Wert darstellt, der in eine Aggregation aufgenommen werden soll.

ADH.ANON_COUNT_DISTINCT-Parameter:

max_contributions_per_group: Beiträge pro Nutzer werden für jede Partition, die durch die GROUP BY-Schlüssel definiert ist, eingeschränkt. Die Obergrenze begrenzt den maximalen Nutzerbeitrag pro Gruppe, nachdem die Werte pro Nutzer aggregiert wurden.
upper_bound: Numerisches Literal, das den größten Wert darstellt, der in eine Aggregation aufgenommen werden soll.

MIN und MAX berechnen

Die Funktionen MIN und MAX werden in Aggregationen mit Rauschen nicht direkt unterstützt. Es gibt jedoch oft alternative Methoden, um diese Ergebnisse zu berechnen.

Wenn Sie eine MIN oder MAX von Werten haben, die als Gruppierungsschlüssel verwendet werden können, z. B. das Ereignisdatum, können Sie zuerst GROUP BY für diesen Wert verwenden und dann MIN/MAX berechnen. Gibt den Mindest- oder Höchstwert zurück, der die Aggregationsgrenzwerte überschreitet.

Beispiel:

WITH campaign_date_ranges AS (
  SELECT campaign_id, MIN(event_date) AS min_date, MAX(event_date) AS max_date
  FROM (
    # Aggregation thresholding will be applied here
    SELECT DISTINCT
      campaign_id,
      DATE(query_id.time_usec, @time_zone) AS event_date
    FROM adh.google_ads_impressions
  )
)
SELECT campaign_id, num_impressions, min_date, max_date
FROM (
  # Noise and aggregation thresholding will be applied here
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
)
JOIN campaign_date_ranges USING(campaign_id)

Alternativ können Sie, wenn Sie einen MIN- oder MAX-Wert für detaillierte Werte mit bekannten Grenzen haben, PERCENTILE_CONT mit expliziten Grenzen verwenden, um ein ungefähres Ergebnis zu erhalten.

Beispiel:

SELECT
  campaign_id,
  COUNT(*) AS num_impressions,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 0,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS min_timestamp,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 1,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS max_timestamp
FROM adh.google_ads_impressions

Ganzzahlige Ergebnisse

Auch wenn Ads Data Hub automatisch Rauschen für diese Aggregationsfunktionen einfügt, ändern sich die Funktionssignaturen nicht. Da Funktionen wie COUNT oder SUM für INT64 den Wert INT64 zurückgeben, werden die Dezimalstellen des verrauschten Ergebnisses gerundet. Im Vergleich zur Größe des Ergebnisses und des Rauschens ist dies normalerweise vernachlässigbar.

Wenn Sie den Detaillierungsgrad der Dezimalstellen in Ihrem Ergebnis benötigen, sollten Sie keine Funktionen schreiben, die INT64 zurückgeben. Sie können beispielsweise SUM verwenden, wobei die Eingabe in FLOAT64 umgewandelt wird.

Negative Ergebnisse

Grundsätzlich kann Rauschen mit sehr kleinen Werten zu negativen Zahlen führen, auch wenn dies für die Abfrage semantisch unmöglich sein sollte. Um das erwartete Verhalten beizubehalten, werden alle Formen von COUNT und COUNTIF automatisch auf null begrenzt, sodass sie nie negative Ergebnisse liefern. Wenn Sie dieses Verhalten auch bei einer anderen Funktion wie SUM wünschen, können Sie die Ergebnisse manuell mit GREATEST(0, SUM(...)) begrenzen.

Diese Änderung ist in der Regel vernachlässigbar, führt aber zu einer leichten positiven Abweichung bei den Gesamtergebnissen.

Öffentliche Gruppen

Mit einer GROUP BY-Klausel werden die anonymisierten Ergebnisse einer Abfrage über Gruppen hinweg aggregiert. Durch die Anwendung von Aggregationsschwellenwerten wird sichergestellt, dass in der Gruppe eine ausreichende Anzahl von Nutzern vorhanden ist, damit die Daten einzelner Nutzer geschützt werden. Der Prozess, bei dem ermittelt wird, welche Gruppen freigegeben werden können, wird als „Partitionsauswahl“ bezeichnet.

In vielen Fällen sind Gruppen öffentlich bekannt. Wenn Sie beispielsweise nach Browserversion, Wochentag oder geografischer Region gruppieren, sind keine Nutzerdaten erforderlich, sofern die Gruppierungsschlüsselwerte im Voraus bekannt sind. In diesem Fall kann die Auswahl der Partition weggelassen werden, da das Vorhandensein oder Fehlen einer Gruppe in der Ausgabe keine neuen Informationen über die Nutzer liefert.

In Ads Data Hub werden Abfragen ermittelt, die für öffentliche Gruppen infrage kommen. Für diese Abfragen wird kein Aggregationsschwellenwert angewendet. Das bedeutet, dass keine Ausgaberow gefiltert wird. Ergebnisse, die auf einer kleinen Anzahl von Nutzern basieren, können stark durch Rauschen beeinflusst werden.

Damit eine Abfrage für öffentliche Gruppen infrage kommt, muss sie so strukturiert sein, dass alle Gruppierungsschlüssel im Voraus bekannt sind. Die Gruppierungsspalten müssen die folgenden Bedingungen erfüllen:

Sie stammen aus einer öffentlichen Tabelle (einer Tabelle oder SELECT-Klausel ohne Ads Data Hub-Nutzerdaten).
Für sie wird SELECT DISTINCT angewendet, um eindeutige Werte zu erzwingen.
Sie werden mit einem OUTER JOIN in die Abfrage aufgenommen.

Wenn eine Abfrage für öffentliche Gruppen infrage kommt, wird in der Ads Data Hub-Benutzeroberfläche die folgende Validierungsmeldung angezeigt: „Join supports public groups and is not subject to aggregation thresholding.“ (Join unterstützt öffentliche Gruppen und unterliegt keiner Aggregationsschwelle.)

Beispiele für Abfragen für öffentliche Gruppen:

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT age_group_id FROM adh.age_group)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT * FROM UNNEST([1, 2, 3]) AS age_group_id)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

Im ersten Beispiel wird die geschützte adh.google_ads_impressions table-Tabelle mit der adh.age_group-Tabelle verknüpft, die keine Nutzerdaten in der Spalte age_group_id enthält. Die gleiche öffentliche Tabelle age_group_id-Spalte wird in der GROUP BY-Klausel angezeigt.

Im zweiten Beispiel wird die geschützte Tabelle adh.google_ads_impressions mit der öffentlichen Tabelle verknüpft, die explizit als UNNEST([1, 2, 3]) angegeben wird. Beachten Sie, dass in beiden Beispielen der Gruppierungsschlüssel age_group_id aus der öffentlichen Tabelle stammt.

Es können auch mehrere Gruppierungselemente angegeben werden, z. B.:

SELECT campaign_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT campaign_id, customer_id FROM adh.google_ads_campaign)
USING (campaign_id, customer_id)
GROUP BY campaign_id, customer_id

SELECT p.campaign_id, p.browser, COUNT(*) FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY campaign_id, browser;

Das Fehlen von Filtern in den Abfragen für öffentliche Gruppen kann für wiederholt ausgeführte Abfragen von Vorteil sein, da die Ausgabe immer für dieselben festen Gruppierungsschlüsselwerte zurückgegeben wird. Das kann beispielsweise beim Erstellen von regelmäßigen Dashboards besonders nützlich sein.

Hinweis: Wenn eine öffentliche Tabelle eine sehr große Anzahl von Gruppierungsschlüsselwerten enthält, erhalten Sie möglicherweise viele Zeilen mit wenigen oder keinen Daten. Diese Zeilen werden alle als mit hohem Rauscheinfluss gemeldet. In diesem Fall sollten Sie eine kleinere Liste von Schlüsseln mit nur den Werten angeben, die Sie interessieren.

GROUP BY ROLLUP

Mit GROUP BY ROLLUP wird die GROUP BY-Klausel erweitert, um zusätzliche Zeilen mit Zwischensummen und Gesamtsummen basierend auf der in der Gruppierungsliste definierten Hierarchie einzuschließen. In Ads Data Hub ist GROUP BY ROLLUP nur verfügbar, wenn Noise Injection verwendet wird. Die Syntax entspricht der standardmäßigen BigQuery-Spezifikation.

Konsistente Gesamtsummen mit öffentlichen Gruppen

Wenn Noise Injection verwendet wird, wird Rauschen unabhängig auf jeder Aggregationsebene angewendet. Das bedeutet, dass die Summen nicht unbedingt perfekt übereinstimmen. Die Zwischensummen ergeben also nicht unbedingt die Gesamtsummen (z. B. stimmt die Summe der Anzahl der Städte möglicherweise nicht mit der Gesamtsumme der Region überein).

Wenn Sie GROUP BY ROLLUP in Kombination mit öffentlichen Gruppen verwenden, wird diese Inkonsistenz in den Ergebnissen in Ads Data Hub beseitigt. Das ist möglich, weil keine Ergebnisse aufgrund von Schwellenwerten herausgefiltert werden. Das bedeutet beispielsweise, dass die Anzahl der Städte in einer Region der Anzahl der entsprechenden Region entspricht. Hinweis: Bei Ganzzahlergebnissen sind geringfügige Abweichungen aufgrund von Rundungsfehlern bei Gleitkommazahlen möglich.

Vorteile der Verwendung öffentlicher Gruppen mit ROLLUP

Konsistente Aggregate: Damit werden Zwischensummen und Summen in Einklang gebracht.
Höhere Genauigkeit: Der Konsistenzprozess verbessert die allgemeine Datengenauigkeit. Höhere Ebenen in der Rollup-Hierarchie (z. B. Aggregate auf Länderebene) basieren auf größeren Datasets und haben in der Regel einen geringeren relativen Rauscheffekt. Diese stabileren Informationen aus höheren Ebenen werden verwendet, um die Qualität der unruhigeren, detaillierteren Ebenen (z. B. Aggregate auf Stadtebene) anzupassen und zu verbessern.

Es wird dringend empfohlen, GROUP BY ROLLUP mit öffentlichen Gruppen zu verwenden, um von diesen Vorteilen zu profitieren.

Beispiele für ROLLUP mit öffentlichen Gruppen:

ROLLUP mit einem einzelnen Schlüssel:

Tabelle verwenden:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT country_code FROM adh.city)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

Inline-Liste verwenden:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT * FROM UNNEST(['US', 'CA', 'CN', 'MX']) AS country_code)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

Beispielergebnis:

country_code	count
CN	6155
CA	16439
USA	256695
MX	10780
null	290067

Die Zeile mit NULL für country_code stellt die Gesamtsumme dar. Die Summe der einzelnen Länderzahlen (290.069) liegt sehr nahe am Gesamtergebnis (290.067). Die geringe Differenz ist auf Rundungen zurückzuführen.

ROLLUP mit mehreren Gruppierungsschlüsseln:

SELECT p.campaign_id, p.browser, COUNT(*) as count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP (campaign_id, browser);

Beispielergebnis:

campaign_id	Browser	count	Hinweise
1	Chrome	…
1	Sonstiges	…
2	Chrome	…
2	Sonstiges	…
1	null	…	Zwischensumme für campaign_id = 1
2	null	…	Zwischensumme für campaign_id = 2
null	null	…	Gesamtsumme

ROLLUP mit gruppierbaren Artikelgruppen:

Wenn Sie mehrere Spalten in der Konsolidierungshierarchie als eine Einheit behandeln möchten, setzen Sie sie in Klammern, z. B. ROLLUP ((column1, column2), column3). Die Daten werden nach dem Paar (campaign_id, browser) als einzelne Einheit zusammengefasst.

Mit GROUP BY ROLLUP ((campaign_id, browser)) werden Zwischensummen für Folgendes berechnet:

(campaign_id, browser) – detaillierteste
() – Gesamtsumme

Es werden keine Zwischensummen nur für (campaign_id) erstellt.

SELECT p.campaign_id, p.browser, COUNT(*) AS count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP ((campaign_id, browser));

Beispielergebnis:

campaign_id	Browser	count	Hinweise
1	Chrome	…
1	Sonstiges	…
2	Chrome	…
2	Sonstiges	…
null	null	…	Gesamtsumme

Hinweis: Wenn Sie ROLLUP mit vielen hierarchischen Ebenen oder einer großen Anzahl unterschiedlicher Werte in den Gruppierungsschlüsseln verwenden, kann dies zu einer großen Anzahl von Ausgaberow führen. Dies kann aufgrund der Ads Data Hub-Beschränkungen für wiederholte Ergebnisse zu Fehlern führen. Es wird empfohlen, die Anzahl der hierarchischen Ebenen und die Kardinalität der Gruppierungsschlüssel relativ gering zu halten.

Unterstützte Abfragemuster

Wichtig: Die meisten standardmäßigen Best Practices von Ads Data Hub treffen auch auf Abfragen mit „Noise Injection“ zu. Wir empfehlen Ihnen insbesondere, die Anleitung zur wiederholten Abfrage derselben Daten zu lesen.

In diesem Abschnitt werden Abfragemuster beschrieben, die für Abfragen mit „Noise Injection“ unterstützt werden.

Aggregatfunktionen auf Nutzerebene

Uneingeschränkte Aggregatfunktionen auf Nutzerebene werden genauso unterstützt wie im Differenzprüfungsmodus. Rauschen wird nur in Aggregationen eingefügt, in denen Daten von mehreren Nutzern kombiniert werden. Aggregationen, die explizit nach user_id gruppiert sind, oder analytische Funktionen, die nach user_id partitionieren, werden nicht verrauscht. Hier ist jede Funktion erlaubt. Aggregationen auf Nutzerebene, die nicht explizit nach user_id gruppiert sind, z. B. GROUP BY impression_id, werden als nutzerübergreifende Aggregationen behandelt und verrauscht.

Es reicht nicht aus, nach external_cookie zu gruppieren. Die Spalte „external_cookie“ kann zwar verwendet werden, um *_match-Tabellen und kundeneigene Tabellen zusammenzuführen, Aggregationen einzelner Nutzer sollten aber explizit nach der Spalte „user_id“ gruppiert werden und nicht nur nach der Spalte „external_cookie“.

Beispiel für eine Aggregatfunktion:

WITH user_paths AS (
  # Grouping by user_id, no noise needed, all functions allowed
  SELECT user_id, STRING_AGG(campaign_id, ">" ORDER BY query_id.time_usec) AS path
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to num_users
SELECT path, COUNT(*) AS num_users
FROM user_paths
GROUP BY 1;

Beispiel für eine analytische Funktion:

WITH events AS (
  # Partitioning by user_id, no noise needed, all functions allowed
  SELECT
    campaign_id,
    ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY query_id.time_usec) AS index
  FROM adh.google_ads_impressions
)
# Noise applied here to first_impressions
SELECT campaign_id, COUNT(*) AS first_impressions
FROM events
WHERE index = 1
GROUP BY 1;

Parallele Aggregatfunktionen

Jede nutzerübergreifende Aggregation wird unabhängig verrauscht. Sie können mehrere solcher Aggregationen in einer einzigen Anweisung ausführen und die Ergebnisse mithilfe einer JOIN- oder UNION-Anweisung in einer Tabelle zusammenführen.

Beispiel:

WITH result_1 AS (
  # Noise applied here to num_impressions
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
  GROUP BY 1
), result_2 AS (
  # Noise applied here to num_clicks
  SELECT campaign_id, COUNT(*) AS num_clicks
  FROM adh.google_ads_creative_conversions
  GROUP BY 1
)
SELECT * FROM result_1 JOIN result_2 USING(campaign_id)

Das ist im Differenzprüfungsmodus zwar möglich, sollte aber vermieden werden. Diese Praxis stellt kein Problem beim Rauschen dar, da jede parallele Aggregatfunktion unabhängig verrauscht und gefiltert wird.

Aggregierte Daten zusammen mit nicht aggregierten Daten

Da Ads Data Hub nur Analysefenster unterstützt, die nach user_id partitioniert sind, ist es eine gängige Lösung, diese Ergebnisse separat zu aggregieren und sie vor der erneuten Aggregation per Self Join zu verknüpfen. Diese Abfragen werden im Rauschmodus unterstützt und funktionieren dort oft besser als im Differenzprüfungsmodus, da die Datenschutzanforderungen früher erfüllt werden.

Beispiel:

WITH campaign_totals AS (
  # Noise applied here to campaign_imps
  SELECT campaign_id, COUNT(*) AS campaign_imps
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to imps
SELECT campaign_id, demographics, campaign_imps, COUNT(*) AS imps
FROM adh.google_ads_impressions JOIN campaign_totals USING(campaign_id)
GROUP BY 1,2,3

Im Rauschmodus wird davon abgeraten, aggregierte Ergebnisse wie AVG(campaign_imps) neu zu aggregieren.

Nicht unterstützte Abfragemuster

In diesem Abschnitt werden Abfragemuster beschrieben, die für Abfragen mit „Noise Injection“ nicht unterstützt werden.

Abfragen, die die heutigen Daten einschließen

Im Rauschmodus werden Abfragen von Daten des aktuellen Tages nicht unterstützt. (Dies sollte auch im Differenzprüfungsmodus vermieden werden.) Für Abfragen mit „Noise Injection“ kann das aktuelle Datum nicht ausgewählt werden.

Wiederholte Ergebnisse

Im Rauschmodus schränkt Ads Data Hub ein, wie oft dieselbe Aggregation wiederholt werden kann. Wenn Sie die Limits erreichen, verlieren Sie für Abfragen im Rauschmodus den Zugriff auf im Datensatz häufig abgefragte Daten. Die folgenden Beispiele zeigen, wie es dazu kommt.

Bei Abfragewiederholungen wird dieselbe Abfrage mehrfach mit denselben oder sehr ähnlichen Parametern ausgeführt, wobei sich auch die Zeiträume überschneiden. Sie können das umgehen, indem Sie Daten verwenden, die schon in Ihr BigQuery-Projekt exportiert wurden.

Wenn mit zwei Jobs sich überschneidende Zeiträume abgefragt werden, kann es zu Wiederholungen kommen, wenn dieselbe Berechnung für dieselben Nutzer ausgeführt wird. Die folgende Abfrage, die für sich überschneidende Zeiträume ausgeführt wird, führt beispielsweise zu einer Wiederholung, da sie nach Datum partitioniert:

SELECT DATE(TIMESTAMP_MICROS(event.event_time)) AS date,
COUNT(*) AS cnt
FROM adh.cm_dt_clicks
GROUP BY 1

In diesem Fall sollten Sie die Abfrage für getrennte Datumssegmente ausführen.

Es kann auch zu Wiederholungen kommen, wenn Daten relativ unabhängig vom Datum sind. Die folgende Abfrage führt zu Wiederholungen, wenn sie für sich überschneidende Zeiträume ausgeführt wird, wobei beide Jobs die gesamte Laufzeit einer Kampagne abdecken:

SELECT campaign_id, COUNT(*) AS cnt
FROM adh.google_ads_impressions
GROUP BY 1

Hier sollten Sie die Abfrage nur einmal ausführen, da sich das Ergebnis nicht ändern wird.

Zu Aggregationswiederholungen kommt es, wenn dieselbe Aggregation innerhalb einer Abfrage mehrfach wiederholt wird:

SELECT COUNT(*) AS cnt1, COUNT(*) AS cnt2
FROM table

In diesem Fall sollten Sie eine der Wiederholungen entfernen.

Wenn die Aggregationen syntaktisch unterschiedlich sind, aber denselben Wert berechnen, würde dies trotzdem als Wiederholung gelten. Mit anderen Worten: Wenn die Werte von condition1 und condition2 für alle Nutzer mit einem bestimmten Wert von key gleich sind, würde die folgende Abfrage zu einer Wiederholung führen:

SELECT key, COUNTIF(condition1) AS cnt1, COUNTIF(condition2) AS cnt2
FROM table
GROUP BY key

Wenn Sie Bedingungen verwenden, die für einige Nutzergruppen sehr ähnlich sind, können Sie die Abfrage so umschreiben, dass sie nur eine COUNT-Funktion enthält.

Zu duplizierten Zeilen kommt es, wenn eine Ads Data Hub-Tabelle mit einer BigQuery-Tabelle so verbunden wird, dass jede Zeile der Ads Data Hub-Tabelle mehreren Zeilen in der BigQuery-Tabelle entspricht. So führt die folgende Abfrage beispielsweise zu einer Wiederholung, wenn es mehrere Zeilen mit derselben Kampagnen-ID in bq_table gibt:

SELECT r.campaign_id, COUNT(*) AS cnt
FROM adh_table
INNER JOIN bq_table ON l.campaign_id = r.campaign_id

In diesem Fall sollten Sie die Abfrage so umstrukturieren, dass bq_table nur eine Zeile pro Schlüssel/Wert-Paar (hier campaign_id) enthält.

Das Aufheben der Verschachtelung eines Arrays aus der Ads Data Hub-Tabelle könnte den gleichen Effekt haben, wenn die meisten Nutzer die gleichen Werte-Arrays haben:

SELECT in_market_id, COUNT(*)
FROM adh.dv360_youtube_impressions,
UNNEST(in_market) AS in_market_id
GROUP BY 1

Als allgemeine Regel sollten Sie die Berechnung derselben Ergebnisse auf maximal zehn Mal begrenzen. Wenn Sie sich dem Grenzwert nähern, werden in Ads Data Hub Warnungen angezeigt. Wenn dieselben Ergebnisse über den Grenzwert hinaus berechnet werden, werden Ihre Jobs mit Fehlern blockiert.

Weitere Best Practices für Abfragen

Lookback-Windows

Bei einigen Abfragemustern werden Berichte für einen großen Zeitraum erstellt und regelmäßig neu generiert, um neue Ergebnisse zu berücksichtigen. Diese Abfragen müssen möglicherweise angepasst werden, damit sie im Rauschmodus funktionieren, da sie blockiert werden, wenn sie vorherige Ergebnisse neu berechnen. Stattdessen sollte mit jedem Job nur neue Ergebnisse generiert werden. Diese können dann mit Ergebnissen aus vorherigen Jobs kombiniert werden, um einen vollständigen Bericht zu erstellen.

Angenommen, Sie erstellen einen Bericht mit Messwerten nach Datum, der täglich aktualisiert wird:

SELECT
  campaign_id,
  DATE(TIMESTAMP_MICROS(query_id.time_usec), @time_zone) AS event_date,
  COUNT(*) AS impressions
FROM adh.google_ads_impressions
GROUP BY 1,2

Sie sollten diesen Befehl nicht für einen großen Zeitraum ausführen, da sonst die Ergebnisse der vorherigen Tage neu berechnet werden. Stattdessen sollten Sie jeden Job nur am letzten Tag ausführen, an dem neue Daten verfügbar sind, und die Ergebnisse dann mit denen aus vorherigen Jobs kombinieren. Wenn Sie alle Ergebnisse aus vielen Jobs in einer einzigen Tabelle erfassen möchten, sollten Sie eine MERGE-Anweisung verwenden.

Sie können weiterhin frühere Zeiträume neu berechnen, um die Ergebnisse zu aktualisieren (z. B. um spät eintreffende Daten zu berücksichtigen). Sie sollten jedoch vermeiden, einzelne Ergebnisse zu oft neu zu berechnen, wie oben beschrieben.

Direkte Neuaggregation

Rauschen wird auf die erste Ebene der nutzerübergreifenden Aggregation in der Abfrage angewendet. Bei Abfragen mit mehreren Aggregationsebenen werden verrauschte Ergebnisse kombiniert. Das führt zu einem viel stärkeren Rauschen bei den endgültigen zusammengefassten Werten. Für diese Abfragen wird bei der Validierung eine Warnung ausgegeben:

WITH layer_1 AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
)
# Reaggregation of partial_result with no user-level data, will be rejected
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

Die besten Ergebnisse durch Rauschen lassen sich erzielen, wenn alle nutzerübergreifenden Vorgänge innerhalb einer einzigen Aggregation berechnet werden. Berechnen Sie z. B. die SUM der Ereignisse und nicht die SUM der Zwischenwerte.

Wenn sich die mehrschichtige Aggregation nicht vermeiden lässt, können Sie die Warnung beheben, indem Sie die Ergebnisse stattdessen direkt aus der ersten Ebene exportieren. Um dies innerhalb eines einzelnen Jobs zu erreichen, ohne die Skriptergebnisse zu ändern, können Sie eine temporäre Tabelle (oder eine nach BigQuery exportierte Tabelle) mit der Syntax OPTIONS(privacy_checked_export=true) erstellen. Beispiel:

CREATE TEMP TABLE layer_1 OPTIONS(privacy_checked_export=true) AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
);
# Reaggregation of privacy checked data, no noise needed
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

Weitere Informationen zu temporären Tabellen

Ist die erste Aggregationsebene zu detailliert für Datenschutzprüfungen, sollten Sie die Abfrage umschreiben und dabei eine Aggregatfunktion auf Nutzerebene verwenden: Wenn das nicht möglich ist, wird diese Abfrage im Rauschmodus nicht unterstützt.

Nicht zusammengeführte Nutzer-IDs

Bei Abfragen im Rauschmodus dürfen keine Daten verschiedener Nutzer in einer einzelnen Zeile kombiniert werden, es sei denn, es wird eine verrauschte Aggregation erstellt. Folglich müssen Joins nicht aggregierter Ads Data Hub-Daten explizit über die Spalte user_id erfolgen.

Bei dieser Abfrage wird eine Validierungswarnung ausgegeben, da der Join nicht explizit über die Spalte user_id erfolgt:

SELECT …
FROM adh.google_ads_impressions
JOIN adh.google_ads_creative_conversions USING(impression_id)

Verknüpfungen wie diese funktionieren möglicherweise nicht wie erwartet, da nur Zeilen mit demselben user_id-Wert abgeglichen werden. Um Abhilfe zu schaffen, können Sie die USING-Anweisung so anpassen, dass user_id explizit eingeschlossen wird, z. B. USING(impression_id, user_id).

Diese Einschränkung gilt nur für Joins zwischen Ads Data Hub-Tabellen (mit Ausnahme von Dimensionstabellen). Sie gilt nicht für kundeneigene Tabellen. Folgendes ist beispielsweise zulässig:

SELECT …
FROM adh.google_ads_impressions
JOIN bigquery_project.dataset.table USING(any_column)

Right Joins zwischen Ads Data Hub und BigQuery

Outer Joins mit kundeneigenen Daten können Zeilen zur Folge haben, in denen Nutzerkennungen fehlen. Das Rauschen kann dann nicht richtig funktionieren.

Beide Abfragen führen zu Validierungswarnungen, da sie nicht zugeordnete Zeilen mit fehlenden Nutzerkennungen auf der Ads Data Hub-Seite zulassen:

SELECT …
FROM adh.google_ads_impressions
RIGHT JOIN bigquery_project.dataset.table USING(column)

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions USING(column)

Wäre die Reihenfolge der Tabellen umgekehrt, würden beide Joins funktionieren. Es gibt auch eine Ausnahme für RDID-Tabellen, die direkt mit device_id_md5 verknüpft werden. Die folgende Abfrage funktioniert beispielsweise ohne Warnungen:

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions_rdid USING(device_id_md5)

Zusammenfassung herausgefilterter Zeilen

Die Spezifikation für die Zusammenfassung herausgefilterter Zeilen wird im Rauschmodus nicht unterstützt. Aufgrund der geringeren Filterraten und da keine Daten aufgrund von Differenzprüfungen herausgefiltert werden, ist diese Funktion im Rauschmodus meist überflüssig.

Wenn bei verrauschten Ergebnissen viel herausgefiltert wird, sollten Sie die Menge der aggregierten Daten erhöhen. Sie können eine parallele Aggregation des gesamten Datensatzes durchführen, um eine Schätzung der Gesamtmenge zu vergleichen, zum Beispiel:

SELECT campaign_name, COUNT(*)
FROM data
GROUP BY 1
UNION ALL
SELECT 'Total', COUNT(*)
FROM data
GROUP BY 1

Die Gesamtzahl wird unabhängig verrauscht und die Gesamtwerte stimmen möglicherweise nicht überein, aber die Gesamtzahl ist oft genauer als die Summe der verrauschten Zeilen.

Modusübergreifend erstellte Tabellen

Nicht exportierte Tabellen in Ads Data Hub können nur mit demselben Datenschutzmodus verwendet werden, in dem sie erstellt wurden. Es ist nicht möglich, eine Tabelle im normalen Aggregationsmodus zu erstellen und sie dann im Rauschmodus zu verwenden oder umgekehrt (es sei denn, die Tabelle wird zuerst in BigQuery exportiert).

Noise Injection Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Die Vorteile von „Noise Injection“

Auswirkungen von Rauschen auf Datenschutzanforderungen

Auswirkungen von „Noise Injection“ auf die Ergebnisse

Einschränkungen der Aggregation

Implizite Einschränkung

Explizite Einschränkung

Abfrage mit Noise Injection ausführen

Auswirkungen des Rauschens prüfen

Abfragen anpassen

Unterstützte Aggregatfunktionen

Zusätzliche Aggregatfunktionen

MIN und MAX berechnen

Ganzzahlige Ergebnisse

Negative Ergebnisse

Öffentliche Gruppen

GROUP BY ROLLUP

Konsistente Gesamtsummen mit öffentlichen Gruppen

Vorteile der Verwendung öffentlicher Gruppen mit ROLLUP

Beispiele für ROLLUP mit öffentlichen Gruppen:

Unterstützte Abfragemuster

Aggregatfunktionen auf Nutzerebene

Parallele Aggregatfunktionen

Aggregierte Daten zusammen mit nicht aggregierten Daten

Nicht unterstützte Abfragemuster

Abfragen, die die heutigen Daten einschließen

Wiederholte Ergebnisse

Lookback-Windows

Direkte Neuaggregation

Nicht zusammengeführte Nutzer-IDs

Right Joins zwischen Ads Data Hub und BigQuery

Zusammenfassung herausgefilterter Zeilen

Modusübergreifend erstellte Tabellen

Noise Injection