إضافة التشويش

إضافة التشويش هو أسلوب يُستخدَم لحماية خصوصية المستخدم عند طلب البحث في قاعدة بيانات. تعمل هذه التقنية من خلال إضافة تشويش عشوائي إلى عبارة SELECT لتجميع البيانات في طلب بحث. ويحمي هذا التشويش خصوصية المستخدمين مع توفير نتائج دقيقة بشكل معقول، ما يلغي الحاجة إلى عمليات التحقّق من الاختلافات ويقلّل من الحد الأدنى للتجميع المطلوب من أجل الحصول على الناتج. يمكن تنفيذ معظم طلبات البحث الحالية في وضع الضوضاء، مع بعض القيود.

التعرّف على مزايا استخدام ميزة "إضافة التشويش"

لا تنطبق عمليات التحقّق من الاختلاف: عند تنفيذ طلبات بحث تتضمّن إضافة تشويش، لا تعمل خدمة Ads Data Hub على فلترة الصفوف بسبب التشابه مع مجموعات النتائج السابقة. وهذا يعني أنّه سيظل بإمكانك الحصول على نظرة شاملة على البيانات مع الحفاظ على خصوصية المستخدمين.

تبسيط عملية تحديد المشاكل وحلّها: لا يتم حذف الصفوف إلا بسبب متطلبات التجميع، ما يسهّل تحديد المشاكل وحلّها وتعديل طلبات البحث.

لا حاجة إلى تعلُّم صيغة جديدة: لا تحتاج إلى تعلُّم أي صيغة جديدة للاستعلام أو الإلمام بمفاهيم الخصوصية لاستخدام الضوضاء بدلاً من عمليات التحقّق من الاختلاف.

يتم عرض دقة النتائج: تعرض المهمة الناجحة النسبة المئوية الإجمالية للبيانات التي كان من الممكن أن تتأثر بالتشويش.

التعرّف على تأثير الضوضاء في متطلبات الخصوصية

عمليات التحقّق من الاختلاف: لا تعتمد عملية إدخال التشويش على عمليات التحقّق الحالية من الاختلاف في Ads Data Hub. عند استخدام ميزة إضافة التشويش، يتم إيقاف عمليات التحقّق من الاختلافات.

متطلبات التجميع: يجب أن تعرض بيانات مرات الظهور الناتجة عن إضافة التشويش بيانات تمثّل 20 مستخدمًا فريدًا أو أكثر، وأن تعرض بيانات النقرات أو بيانات الإحالات الناجحة بيانات تمثّل 10 مستخدمين فريدين أو أكثر.

عمليات التحقّق الثابتة: ليس لها أي تأثير.

الميزانيات وحدود طلبات البحث: على غرار عمليات التحقّق من الاختلافات، تفرض عملية إدخال التشويش حدودًا على عدد المرات التي يمكن فيها تنفيذ طلب البحث نفسه على مجموعة البيانات نفسها. من خلال إعادة احتساب النتائج المجمّعة نفسها إما ضمن طلب بحث واحد أو على مستوى عمليات تشغيل طلبات بحث متعددة، قد تفقد إمكانية الوصول إلى التواريخ التي يتم البحث عنها بشكل متكرر في مجموعة البيانات. يمكن أن يحدث ذلك إذا نفّذت طلبات بحث باستخدام نافذة منزلقة، أو إذا أرسلت الطلب نفسه عدة مرات. لمزيد من المعلومات، يُرجى الاطّلاع على النتائج المتكرّرة.

مزيد من المعلومات عن فحوصات الخصوصية

فهم كيفية تأثير إضافة التشويش في النتائج

تضيف خدمة Ads Data Hub تشويشًا للحدّ من خطر الإفصاح، أي خطر أن يتمكّن شخص ما من معرفة معلومات عن مستخدم فردي. وتوازن بين الخصوصية والفائدة.

تعمل ميزة "إضافة التشويش" في Ads Data Hub على تحويل نتائج طلب البحث على النحو التالي:

ويؤدي ذلك إلى حصر مساهمات المستخدمين المتطرفين في النتائج المجمّعة. يجمع هذا النوع مساهمة كل مستخدم في كل عملية تجميع، ثم يضع حدًا أدنى وأقصى لكل مساهمة.
يجمع هذا المقياس المساهمات المحدودة لكل مستخدم.
تضيف هذه الآلية ضوضاء إلى كل نتيجة مجمّعة، أي نتيجة كل استدعاء لدالة تجميع في كل صف. ويتناسب مقياس هذه الضوضاء العشوائية مع الحدود المثبّتة.
ويحتسب عددًا مشوّشًا للمستخدمين لكل صف ويزيل الصفوف التي تتضمّن عددًا قليلاً جدًا من المستخدمين. يشبه ذلك إخفاء الهوية k في وضع التحقّق من الاختلاف، ولكن بسبب التشويش، يمكن أن تتجاهل المهام التي يتم تنفيذها على مجموعة البيانات نفسها صفوفًا مختلفة. بالإضافة إلى ذلك، يسقط وضع التشويش عددًا أقل من الصفوف لأنّ متطلبات التجميع أقل (حوالي 20 مقارنةً بـ 50 بالضبط).

والنتيجة النهائية هي مجموعة بيانات يتضمّن كل صف فيها نتائج مجمّعة مشوّشة، وتمت إزالة المجموعات الصغيرة. يؤدي ذلك إلى إخفاء تأثير مستخدم فردي على النتائج المعروضة.

لمحة عن الحدّ من التجميع

تستخدم عملية إدخال التشويش في Ads Data Hub التجميع الضمني أو الصريح لتقييد مساهمة القيم الشاذة. يمكنك اختيار نوع التقييد الذي تريد استخدامه، وذلك حسب حالة الاستخدام.

التثبيت الضمني

لا تحتاج إلى أي بنية SQL خاصة لاستخدام التقييد الضمني، إذ يتم تطبيقه تلقائيًا. يتم استنتاج الحدود الضمنية من البيانات نفسها، ويتم تحديدها لكل عملية تجميع. إذا كانت بعض عمليات التجميع تتضمّن نطاقًا أوسع من القيم مقارنةً بغيرها، يمكن أن يستنتج التحديد الضمني حدودًا مختلفة لعمليات التجميع المختلفة حسب الاقتضاء. يؤدي ذلك عادةً إلى تقليل الأخطاء. يُرجى العِلم أنّ COUNT(DISTINCT user_id) تحدّ تلقائيًا من مساهمة كل مستخدم إلى 1.

التثبيت الصريح

يؤدي التحديد الصريح للنطاق إلى حصر إجمالي المساهمة من كل مستخدم في نطاق محدّد. يتم تطبيق الحدود الصريحة بشكل موحّد على جميع عمليات التجميع، ويجب أن تكون قيمًا حرفية. قد يؤدي التقييد الصريح إلى نتائج أفضل عندما تكون الحدود معروفة بشكل عام. على سبيل المثال، يشير تحديد الفئة العمرية بين 0 و100 عام إلى المعلومات المتاحة للجميع لأنّ معظم الأشخاص يندرجون ضمن هذه الفئة العمرية.

توفّر خدمة Ads Data Hub ADH.ANONوظائف تجميعية إضافية لعمليات التقييد الصريح. لاستخدام التحديد الواضح للنطاق، اضبط حدود كل دالة تجميع متوافقة من خلال إضافة أعداد صحيحة تمثّل الحد الأدنى والحد الأقصى. على سبيل المثال:

SELECT
campaign_name,
-- Set lower and upper bounds to 0 and 1, respectively
ADH.ANON_COUNT(*, contribution_bounds_per_group => (0,1))
FROM data
GROUP BY 1

تنفيذ طلب بحث باستخدام إضافة التشويش

افتح تقريرًا.
انقر على زر التبديل إعدادات وظائف إخفاء هوية المستخدمين للحفاظ على الخصوصية إلى وضع استخدام الضوضاء.
نفِّذ الطلب.
راجِع تأثير التشويش المضاف.
اختياري: تعديل طلب البحث للحدّ من تأثير التشويش

مراجعة تأثير الضوضاء

بعد اكتمال مهمة بنجاح، يعرض Ads Data Hub مدى موثوقية النتيجة في ملخّص الخصوصية. تستند الموثوقية إلى النسبة المئوية للخلايا في الناتج التي قد تتأثر بشكل كبير بتفاوت الأداء. تُعدّ القيمة في جدول النتائج متأثرة إذا كان مقياس التشويش المضاف أكبر من %5 من النتيجة في الخلية.

بالنسبة إلى مجموعات بيانات النتائج المتأثرة، يعرض ملخّص الخصوصية الأعمدة العشرة الأكثر تشويشًا، بدءًا من الأعلى تأثيرًا إلى الأقل تأثيرًا، ومساهمتها في التشويش. في ما يلي تفاصيل تصنيفات تأثير الضوضاء.

النسبة المئوية للنتائج المتأثرة	لون المؤشر	التأثير
<5%	أخضر	تأثير منخفض
‫5%-15%	أصفر	تأثير متوسط
‫15%-25%	برتقالي	تأثير عالٍ
>25%	أحمر	تأثير كبير جدًا

يمكنك أيضًا معاينة ملخّص الخصوصية لمهام التقارير الحديثة في صفحة الصفحة الرئيسية. لمعاينة إعدادات الخصوصية لوظيفة معيّنة، مرِّر المؤشر فوق رمز تلميح الخصوصية privacy_tip في بطاقة الوظيفة ضمن الأنشطة الحديثة.

تكييف طلبات البحث

من المرجّح أن تتأثر عمليات التجميع بالتشويش عندما يساهم عدد قليل من المستخدمين في النتيجة. ويمكن أن يحدث ذلك عند احتساب عمليات التجميع من مجموعات صغيرة من المستخدمين أو عندما لا يؤثّر بعض المستخدمين في النتائج، كما يحدث مثلاً مع الدالة COUNTIF. استنادًا إلى تقرير التشويش، قد تحتاج إلى تعديل طلب البحث لتقليل النسبة المئوية للنتائج المتأثرة.

في ما يلي الإرشادات العامة:

وسِّع النطاق الزمني.
أعِد كتابة طلب البحث لتقليل دقة البيانات، مثلاً من خلال التجميع حسب عدد أقل من المَعلمات أو استبدال COUNTIF بـ COUNT.
إزالة الأعمدة التي تتضمّن بيانات غير دقيقة
جرِّب الحدّ من القيم الصريحة عندما يمكن اختيار حدود معقولة.

دوال التجميع المتوافقة

تتوفّر دوال التجميع التالية مع الضوضاء:

SUM(...)
COUNT(*)
COUNT(...)
COUNTIF(...)
COUNT(DISTINCT ...)
APPROX_COUNT_DISTINCT(...)
AVG(...)

لا يمكن استخدام الكلمة الرئيسية DISTINCT إلا مع الدالة COUNT. عند استخدامها مع إشارة مباشرة إلى العمود user_id من جدول Ads Data Hub أو تعبير يعرض إما user_id أو NULL، مثل COUNT(DISTINCT IF(..., user_id, NULL))، يتم احتساب الدالتَين COUNT DISTINCT وAPPROX_COUNT_DISTINCT(...) من خلال حصر مساهمة كل مستخدم على 1. عندما تشير COUNT DISTINCT إلى عمود غير user_id، يتم تقريبها باستخدام APPROX_COUNT_DISTINCT مع التثبيت الضمني.

دوال التجميع التكميلية

بالإضافة إلى إتاحة استخدام أدوات التجميع العادية، يقدّم Ads Data Hub دوال تجميع ADH.ANON إضافية تتيح استخدام التحديد الواضح. تتشارك أدوات التجميع هذه البنية مع دوال التجميع الخاصة بالفروق في الخصوصية في BigQuery، ولكنّها لا تتطلّب عبارة WITH DIFFERENTIAL_PRIVACY:

ADH.ANON_SUM( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( *, [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_AVG( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_PERCENTILE_CONT( ..., percentile, contribution_bounds_per_row => (lower_bound, upper_bound) )
ADH.ANON_COUNT_DISTINCT( ..., [ max_contributions_per_group => upper_bound ] )

المَعلمات ADH.ANON_SUM وADH.ANON_COUNT وADH.ANON_AVG:

‫contribution_bounds_per_group: يتم حصر المساهمات لكل مستخدم لكل قسم محدّد بمفاتيح GROUP BY. يتم تطبيق الحدّين الأعلى والأدنى على القيم لكل مجموعة بعد تجميع القيم لكل مستخدم.
lower_bound: قيمة عددية حرفية تمثّل أصغر قيمة سيتم تضمينها في عملية تجميع.
upper_bound: قيمة حرفية رقمية تمثّل أكبر قيمة سيتم تضمينها في عملية تجميع.

مَعلمات ADH.ANON_PERCENTILE_CONT:

percentile: المعدّل المئوي المطلوب احتسابه، وهو قيمة حرفية ضمن النطاق [0, 1].
contribution_bounds_per_row: يتم تحديد مساهمات كل مستخدم على أساس كل صف (كل سجل). يُرجى العِلم أنّه يجب توفير حدود التثبيت الصريحة للمئوية، وبالتالي لا يمكن استخدامها إلا كدالة تكميلية.
lower_bound: قيمة عددية حرفية تمثّل أصغر قيمة سيتم تضمينها في عملية تجميع.
upper_bound: قيمة حرفية رقمية تمثّل أكبر قيمة سيتم تضمينها في عملية تجميع.

مَعلمات ADH.ANON_COUNT_DISTINCT:

‫max_contributions_per_group: يتم حصر المساهمات لكل مستخدم لكل قسم محدّد بمفاتيح GROUP BY. يحدّ الحدّ الأعلى من الحدّ الأقصى لمساهمة المستخدم لكل مجموعة بعد تجميع القيم لكل مستخدم.
upper_bound: قيمة حرفية رقمية تمثّل أكبر قيمة سيتم تضمينها في عملية تجميع.

حساب الحدّ الأدنى والحدّ الأقصى

لا تتوافق الدالتان MIN وMAX مباشرةً مع عمليات تجميع الضوضاء، ولكن غالبًا ما تتوفّر طرق بديلة لاحتساب هذه النتائج.

إذا كان لديك MIN أو MAX من القيم التي يمكن استخدامها كمفاتيح تجميع، مثل تاريخ الحدث، يمكنك أولاً استخدام GROUP BY مع هذه القيمة، ثم حساب MIN/MAX بعد ذلك. تعرض هذه السمة الحدّ الأدنى أو الأقصى للقيمة التي تتجاوز الحدّ الأدنى للتجميع.

مثال:

WITH campaign_date_ranges AS (
  SELECT campaign_id, MIN(event_date) AS min_date, MAX(event_date) AS max_date
  FROM (
    # Aggregation thresholding will be applied here
    SELECT DISTINCT
      campaign_id,
      DATE(query_id.time_usec, @time_zone) AS event_date
    FROM adh.google_ads_impressions
  )
)
SELECT campaign_id, num_impressions, min_date, max_date
FROM (
  # Noise and aggregation thresholding will be applied here
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
)
JOIN campaign_date_ranges USING(campaign_id)

بدلاً من ذلك، إذا كان لديك الحدّ الأدنى أو الحدّ الأقصى للقيم الدقيقة مع حدود معروفة، يمكنك استخدام PERCENTILE_CONT مع حدود صريحة للحصول على نتيجة تقريبية.

مثال:

SELECT
  campaign_id,
  COUNT(*) AS num_impressions,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 0,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS min_timestamp,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 1,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS max_timestamp
FROM adh.google_ads_impressions

لمحة عن نتائج الأعداد الصحيحة

على الرغم من أنّ Ads Data Hub سيضيف تلقائيًا تشويشًا إلى هذه الدوال المجمّعة، لن تتغيّر تواقيع الدوال. بما أنّ دوالاً مثل COUNT أو SUM من INT64 تعرض INT64، يتم تقريب أي جزء عشري من النتيجة المشوَّشة. ويكون هذا التغيير عادةً ضئيلاً مقارنةً بحجم النتيجة والتشويش.

إذا كنت بحاجة إلى دقة الرقم العشري في النتيجة، تجنَّب كتابة دوال تعرض INT64، مثلاً باستخدام SUM مع تحويل نوع الإدخال إلى FLOAT64.

لمحة عن النتائج السلبية

من حيث المبدأ، يمكن أن تؤدي البيانات غير المرغوب فيها التي تتضمّن قيمًا صغيرة جدًا إلى ظهور أرقام سالبة، حتى عندما يكون ذلك غير ممكن دلاليًا بالنسبة إلى طلب البحث. للحفاظ على السلوك المتوقّع، يتم تلقائيًا حصر جميع أشكال COUNT وCOUNTIF عند الصفر، وبالتالي لا تعطي أبدًا نتائج سلبية. إذا كنت تريد السلوك نفسه مع دالة أخرى، مثل SUM، يمكنك حصر النتائج يدويًا باستخدام GREATEST(0, SUM(...)).

يكون هذا التغيير عادةً ضئيلاً، ولكنّه يؤدي إلى تحسين بسيط في النتائج الإجمالية.

المجموعات العامة

باستخدام عبارة GROUP BY، يتم تجميع النتائج المجهولة المصدر لطلب بحث على مستوى المجموعات. يتم تطبيق حدود التجميع للتأكّد من توفّر عدد كافٍ من المستخدمين في المجموعة، وذلك لحماية بيانات المستخدمين الفرديين. تُعرف عملية تحديد المجموعات التي يمكن إصدارها باسم "اختيار الأقسام".

في كثير من الحالات، قد تكون المجموعات معروفة للجميع. على سبيل المثال، لا يعتمد التجميع حسب إصدار المتصفّح أو يوم الأسبوع أو المنطقة الجغرافية على بيانات المستخدم إذا كانت قيم مفتاح التجميع معروفة مسبقًا. في هذه الحالة، يمكن حذف اختيار القسم، لأنّ توفّر مجموعة أو عدم توفّرها في الناتج لا يقدّم أي معلومات جديدة عن المستخدمين.

تحدّد خدمة Ads Data Hub طلبات البحث المؤهّلة للمجموعات العامة ولا تطبّق حدّ التجميع على هذه الطلبات. وهذا يعني أنّه لم يتم استبعاد أي صفوف من النتائج. يُرجى العِلم أنّ النتائج المحسوبة من عدد صغير من المستخدمين يمكن أن تتأثر بشكل كبير بالتشويش.

لكي تكون مؤهَّلاً للمجموعات العامة، يجب أن يكون طلب البحث منظَّمًا لضمان معرفة جميع مفاتيح التجميع مسبقًا. يجب أن تستوفي أعمدة التجميع الشروط التالية:

أن تكون البيانات واردة من جدول متاح للجميع (جدول أو عبارة SELECT لا تتضمّن بيانات مستخدمي Ads Data Hub).
يتم تطبيق SELECT DISTINCT لفرض قيم فريدة.
يتم دمجها في طلب البحث باستخدام OUTER JOIN في جميع الأعمدة الفردية.

عندما يكون طلب بحث مؤهّلاً للمجموعات العامة، ستعرض واجهة مستخدم Ads Data Hub رسالة التحقّق من الصحة التالية: "تتيح عملية الربط استخدام المجموعات العامة ولا تخضع لحدّ التجميع الأدنى".

أمثلة على طلبات البحث في المجموعات العامة:

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT age_group_id FROM adh.age_group)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT * FROM UNNEST([1, 2, 3]) AS age_group_id)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

في المثال الأول، يتم ربط adh.google_ads_impressions table المحمي بجدول adh.age_group الذي لا يحتوي على بيانات المستخدمين في العمود age_group_id. يظهر عمود جدول age_group_id العلني نفسه في عبارة GROUP BY.

وبالمثل، في المثال الثاني، يتم ربط الجدول المحمي adh.google_ads_impressions بالجدول العام الذي يتم توفيره بشكل صريح على أنّه UNNEST([1, 2, 3]). يُرجى العِلم أنّه في كلا المثالين، يأتي مفتاح التجميع age_group_id من الجدول العام.

يمكن أيضًا تقديم عناصر تجميع متعدّدة، مثل:

SELECT campaign_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT campaign_id, customer_id FROM adh.google_ads_campaign)
USING (campaign_id, customer_id)
GROUP BY campaign_id, customer_id

SELECT p.campaign_id, p.browser, COUNT(*) FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY campaign_id, browser;

يمكن أن يكون عدم الفلترة في طلبات البحث الخاصة بالمجموعات العامة مفيدًا لطلبات البحث التي يتم تنفيذها بشكل متكرر، لأنّه يتم دائمًا عرض الناتج لقيم مفاتيح التجميع الثابتة نفسها. ويمكن أن يكون ذلك مفيدًا بشكل خاص، مثلاً، لإنشاء لوحات بيانات دورية.

ملاحظة: إذا كان جدول عام يوفّر عددًا كبيرًا جدًا من قيم مفاتيح التجميع، قد تحصل على العديد من الصفوف التي تتضمّن بيانات قليلة أو لا تتضمّن أي بيانات، وسيتم الإبلاغ عن أنّ هذه الصفوف لها تأثير كبير على التشويش. في هذه الحالة، عليك تقديم قائمة أصغر من المفاتيح تتضمّن القيم التي تهمّك فقط.

GROUP BY ROLLUP

توسّع GROUP BY ROLLUP عبارة GROUP BY لتشمل صفوفًا إضافية تمثّل المجاميع الفرعية والمجاميع الكلية استنادًا إلى التسلسل الهرمي المحدّد في قائمة التجميع. في Ads Data Hub، لا تتوفّر GROUP BY ROLLUP إلا عند استخدام ميزة "إدخال التشويش". تتّبع بنية الجملة المواصفات العادية لأداة BigQuery.

إجمالي متّسق مع المجموعات العامة

عند استخدام ميزة "إضافة التشويش"، يتم تطبيق التشويش بشكل مستقل على كل مستوى من مستويات تجميع البيانات. وهذا يعني أنّ الإجماليات لا تتطابق بالضرورة بشكل تام، وبالتالي لا يتطابق مجموع الإجماليات الفرعية مع الإجماليات الكلية (على سبيل المثال، قد لا يتطابق مجموع عدد السكان في المدن مع إجمالي عدد السكان في المنطقة).

عند استخدام GROUP BY ROLLUP مع المجموعات العامة، سيزيل Ads Data Hub هذا التناقض في النتائج. ويكون ذلك ممكنًا لأنّه لا يتم فلترة أي نتائج بسبب تحديد الحد الأدنى. وهذا يعني، على سبيل المثال، أنّ أعداد المدن ستُضاف إلى عدد المنطقة المعنية. (ملاحظة: بالنسبة إلى نتائج الأعداد الصحيحة، من المحتمل حدوث اختلافات طفيفة بسبب أخطاء التقريب الناتجة عن الأرقام الفاصلة العائمة).

مزايا استخدام المجموعات العامة مع ROLLUP

عمليات التجميع المتسقة: تضمن توافق المجاميع الفرعية والمجاميع الكلية.
تحسين الدقة: تعمل عملية المطابقة على تحسين دقة البيانات بشكل عام. تستند المستويات الأعلى في التسلسل الهرمي للتجميع (مثل عمليات التجميع على مستوى البلد) إلى مجموعات بيانات أكبر، كما أنّها تميل إلى أن يكون لها تأثير أقل نسبيًا من التشويش. ويتم استخدام هذه المعلومات الأكثر استقرارًا من المستويات الأعلى لضبط وتحسين جودة المستويات الأكثر تفصيلاً والأقل استقرارًا (مثل البيانات المجمّعة على مستوى المدينة).

ننصحك بشدة باستخدام GROUP BY ROLLUP مع المجموعات العامة كلما أمكن ذلك للاستفادة من هذه المزايا.

أمثلة على ROLLUP مع مجموعات عامة:

ROLLUP باستخدام مفتاح واحد:

استخدام جدول:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT country_code FROM adh.city)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

استخدام قائمة مضمّنة:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT * FROM UNNEST(['US', 'CA', 'CN', 'MX']) AS country_code)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

مثال على النتيجة:

country_code	count
CN	6155
كندا	16439
الولايات المتحدة	256695
المكسيك	10780
قيمة فارغة	290067

يمثّل الصف الذي يتضمّن NULL في country_code المجموع الكلي. إنّ مجموع أعداد البلدان الفردية، 290069، قريب جدًا من إجمالي الصف، 290067، مع اختلاف بسيط ناتج عن التقريب.

ROLLUP مع مفاتيح تجميع متعدّدة:

SELECT p.campaign_id, p.browser, COUNT(*) as count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP (campaign_id, browser);

مثال على النتيجة:

campaign_id	المتصفّح	count	ملاحظات
1	Chrome	...
1	غير ذلك	...
2	Chrome	...
2	غير ذلك	...
1	قيمة فارغة	...	المجموع الفرعي لـ campaign_id = 1
2	قيمة فارغة	...	المجموع الفرعي لـ campaign_id = 2
قيمة فارغة	قيمة فارغة	...	الإجمالي الكلي

‫ROLLUP مع مجموعات السلع القابلة للتجميع:

للتعامل مع أعمدة متعددة كوحدة واحدة ضمن التسلسل الهرمي لمجموعة الحسابات، ضَعها بين قوسين، مثلاً: ROLLUP ((column1, column2), column3). يتم تجميع هذه البيانات حسب الزوج (campaign_id, browser) ككيان واحد.

ستعرض GROUP BY ROLLUP ((campaign_id, browser)) الإجماليات الفرعية لما يلي:

‫(campaign_id, browser) - الأكثر تفصيلاً
() - الإجمالي العام

لن يتم إنشاء إجماليات فرعية وسيطة لـ (campaign_id) فقط.

SELECT p.campaign_id, p.browser, COUNT(*) AS count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP ((campaign_id, browser));

مثال على النتيجة:

campaign_id	المتصفّح	count	ملاحظات
1	Chrome	...
1	غير ذلك	...
2	Chrome	...
2	غير ذلك	...
قيمة فارغة	قيمة فارغة	...	الإجمالي الكلي

ملاحظة: يمكن أن يؤدي استخدام ROLLUP مع العديد من المستويات الهرمية أو عدد كبير من القيم المميزة في مفاتيح التجميع إلى إنشاء عدد كبير من صفوف الإخراج. قد يؤدي ذلك إلى حدوث أخطاء بسبب القيود التي يفرضها "مركز بيانات إعلانات Google" على النتائج المتكرّرة. يُنصح بإبقاء عدد المستويات الهرمية وعدد القيم الأساسية لمفاتيح التجميع صغيرًا نسبيًا.

أنماط طلبات البحث المتوافقة

ملاحظة مهمة: تظلّ معظم أفضل الممارسات العادية في "مركز بيانات إعلانات Google" سارية على طلبات البحث التي تستخدم ميزة "إضافة التشويش". ننصحك بشكل خاص بمراجعة الإرشادات حول الاستعلام بشكل متكرّر عن البيانات نفسها.

يوضّح هذا القسم أنماط طلبات البحث المتوافقة عند تنفيذ طلبات البحث باستخدام ميزة "إضافة التشويش".

عمليات التجميع على مستوى المستخدم

تتوفّر إحصاءات مجمّعة على مستوى المستخدمين بدون قيود بالطريقة نفسها التي تتوفّر بها في وضع التحقّق من الاختلاف. لا يتم إدخال الضوضاء إلا في عمليات التجميع التي تجمع البيانات من عدة مستخدمين. لا تتلقّى عمليات التجميع التي يتم فيها التجميع بشكل صريح حسب user_id، أو الدوال الإحصائية التي يتم فيها التقسيم حسب user_id، أي تشويش ويُسمح بأي دالة. يتم التعامل مع عمليات التجميع على مستوى المستخدم التي لا يتم فيها التجميع بشكل صريح حسب user_id، مثل GROUP BY impression_id، على أنّها عمليات تجميع على مستوى عدة مستخدمين، وبالتالي تتم إضافة تشويش.

لا يكفي التجميع حسب external_cookie. على الرغم من إمكانية استخدام external_cookie لربط جداول *_match بالجداول التي يملكها العميل، يجب أن يتم تجميع أي عمليات تجميع خاصة بمستخدم واحد بشكل صريح حسب عمود user_id، وليس عمود external_cookie فقط.

مثال على دالة التجميع:

WITH user_paths AS (
  # Grouping by user_id, no noise needed, all functions allowed
  SELECT user_id, STRING_AGG(campaign_id, ">" ORDER BY query_id.time_usec) AS path
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to num_users
SELECT path, COUNT(*) AS num_users
FROM user_paths
GROUP BY 1;

مثال على دالة تحليلية:

WITH events AS (
  # Partitioning by user_id, no noise needed, all functions allowed
  SELECT
    campaign_id,
    ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY query_id.time_usec) AS index
  FROM adh.google_ads_impressions
)
# Noise applied here to first_impressions
SELECT campaign_id, COUNT(*) AS first_impressions
FROM events
WHERE index = 1
GROUP BY 1;

التجميعات المتوازية

تتلقّى كل عملية تجميع على مستوى عدة مستخدمين ضوضاء بشكل مستقل. يمكنك تنفيذ عمليات تجميع متعددة من هذا النوع في عبارة واحدة، ودمج النتائج في جدول واحد باستخدام JOIN أو UNION.

مثال:

WITH result_1 AS (
  # Noise applied here to num_impressions
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
  GROUP BY 1
), result_2 AS (
  # Noise applied here to num_clicks
  SELECT campaign_id, COUNT(*) AS num_clicks
  FROM adh.google_ads_creative_conversions
  GROUP BY 1
)
SELECT * FROM result_1 JOIN result_2 USING(campaign_id)

يُرجى العلم أنّه سيتم إتاحة ذلك، ولكن يجب تجنُّبه في وضع التحقّق من الاختلافات. لا تشكّل هذه الممارسة مشكلة في ما يتعلّق بالتشويش، لأنّه يتم تشويش كل عملية تجميع متوازية وفلترتها بشكل مستقل.

البيانات المجمَّعة المرتبطة بالبيانات غير المجمَّعة

بما أنّ Ads Data Hub لا يتيح سوى نوافذ تحليلية يتم تقسيمها حسب user_id، من الشائع استخدام حلّ بديل لتجميع هذه النتائج بشكل منفصل وإجراء ربط ذاتي لها قبل تجميعها مرة أخرى. تتوفّر طلبات البحث هذه في وضع الضوضاء، وغالبًا ما يكون أداؤها أفضل من وضع التحقّق من الاختلاف بسبب حلّ متطلبات الخصوصية في وقت سابق.

مثال:

WITH campaign_totals AS (
  # Noise applied here to campaign_imps
  SELECT campaign_id, COUNT(*) AS campaign_imps
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to imps
SELECT campaign_id, demographics, campaign_imps, COUNT(*) AS imps
FROM adh.google_ads_impressions JOIN campaign_totals USING(campaign_id)
GROUP BY 1,2,3

يؤدي تفعيل وضع التشويش إلى عدم تشجيع إعادة تجميع النتائج المجمّعة، مثل AVG(campaign_imps).

أنماط طلبات البحث غير المتوافقة

يوضّح هذا القسم أنماط طلبات البحث غير المتاحة عند تنفيذ طلبات البحث باستخدام ميزة "إضافة التشويش".

طلبات البحث التي تتضمّن اليوم

لا تتيح طلبات البحث في وضع التشويش الاستعلام عن بيانات اليوم الحالي. (لا يُنصح بذلك في وضع التحقُّق من الاختلافات). لا يمكن اختيار التاريخ الحالي لطلبات البحث التي تستخدم ميزة "إضافة التشويش".

النتائج المتكرّرة

في وضع التشويش، يفرض Ads Data Hub قيودًا على عدد المرات التي يمكنك فيها تكرار عملية التجميع نفسها. في حال بلوغ هذه الحدود، لن تتمكّن طلبات البحث في "وضع التشويش" من الوصول إلى التواريخ التي يتم البحث عنها بشكل متكرّر في مجموعة البيانات. في ما يلي أمثلة على كيفية حدوث ذلك.

يحدث تكرار طلب البحث عندما يتم تنفيذ طلب البحث نفسه عدة مرات باستخدام المَعلمات نفسها أو مَعلمات متشابهة جدًا، مثل النطاقات الزمنية المتداخلة. يمكنك تجنُّب ذلك باستخدام البيانات التي تم تصديرها من قبل إلى مشروعك على BigQuery.

يُرجى العِلم أنّه إذا كان هناك مهمّتان تستعلِمان عن نطاقات زمنية متداخلة، قد تؤدّيان إلى تكرار البيانات إذا تم إجراء العملية الحسابية نفسها على المستخدمين أنفسهم. على سبيل المثال، يؤدي طلب البحث التالي، الذي يتم تنفيذه على نطاقات زمنية متداخلة، إلى إنشاء تكرارات لأنّه يقسّم حسب التاريخ:

SELECT DATE(TIMESTAMP_MICROS(event.event_time)) AS date,
COUNT(*) AS cnt
FROM adh.cm_dt_clicks
GROUP BY 1

في هذه الحالة، يجب تنفيذ طلب البحث على شرائح تاريخية منفصلة.

يحدث مثال آخر على التكرار عندما تكون البيانات مستقلة إلى حد ما عن التاريخ. ينتج الاستعلام التالي تكرارات عند تنفيذه في تواريخ متداخلة، حيث تغطي كلتا المهمتين مدة الحملة بالكامل:

SELECT campaign_id, COUNT(*) AS cnt
FROM adh.google_ads_impressions
GROUP BY 1

في هذه الحالة، يجب تنفيذ هذا الاستعلام مرة واحدة فقط لأنّ النتيجة لا تتغيّر.

يحدث تكرار التجميع عندما يتم تكرار عملية التجميع نفسها عدّة مرات ضمن طلب بحث:

SELECT COUNT(*) AS cnt1, COUNT(*) AS cnt2
FROM table

في هذه الحالة، عليك إزالة أحد التكرارات.

يُرجى العِلم أنّه حتى إذا كانت عمليات التجميع مختلفة من الناحية التركيبية ولكنها تحتسب القيمة نفسها، سيتم احتسابها كتكرار. بعبارة أخرى، إذا كانت قيمتَي condition1 وcondition2 متطابقتَين لجميع المستخدمين الذين لديهم قيمة key، سيتضمّن طلب البحث التالي تكرارًا:

SELECT key, COUNTIF(condition1) AS cnt1, COUNTIF(condition2) AS cnt2
FROM table
GROUP BY key

إذا كانت لديك شروط متشابهة جدًا لبعض مجموعات المستخدمين، يمكنك إعادة كتابة طلب البحث ليتضمّن COUNT واحدًا فقط.

يحدث تكرار الصفوف عند ربط جدول في Ads Data Hub بجدول في BigQuery بطريقة تتطابق فيها كل صف من جدول Ads Data Hub مع صفوف متعدّدة في جدول BigQuery. على سبيل المثال، يؤدي طلب البحث التالي إلى تكرار إذا كانت هناك صفوف متعددة تتضمّن معرّف الحملة نفسه في bq_table:

SELECT r.campaign_id, COUNT(*) AS cnt
FROM adh_table
INNER JOIN bq_table ON l.campaign_id = r.campaign_id

في هذه الحالة، عليك إعادة هيكلة طلب البحث بحيث يحتوي bq_table على صف واحد فقط لكل قيمة مفتاح ربط (campaign_id في هذه الحالة).

يُرجى العِلم أنّ إلغاء تداخل مصفوفة من جدول Ads Data Hub قد يؤدي إلى التأثير نفسه إذا كانت معظم المصفوفات تتضمّن القيم نفسها:

SELECT in_market_id, COUNT(*)
FROM adh.dv360_youtube_impressions,
UNNEST(in_market) AS in_market_id
GROUP BY 1

كقاعدة عامة، يجب ألا تتجاوز عدد مرات احتساب النتائج نفسها 10 مرات. عند اقترابك من الحدّ، ستعرض Ads Data Hub تحذيرات. إذا استمرّ احتساب النتائج نفسها بعد تجاوز الحدّ، سيتم حظر مهامك مع ظهور أخطاء.

مزيد من المعلومات حول أفضل الممارسات الأخرى المتعلّقة بطلبات البحث

لمحة عن فترات معاينة الإعلان

تُنشئ بعض أنماط طلبات البحث تقارير على مدار فترة زمنية طويلة، وتتم إعادة إنشائها بشكل دوري لتضمين نتائج جديدة. قد تحتاج هذه الطلبات إلى تعديلات لتعمل في وضع التشويش، لأنّه سيتم حظرها إذا أعادت احتساب النتائج السابقة. بدلاً من ذلك، يجب أن تؤدي كل مهمة إلى إنشاء نتائج جديدة فقط، ثم يمكن دمج النتائج الجديدة مع نتائج من مهام سابقة للحصول على تقرير كامل.

على سبيل المثال، إذا كنت بصدد إنشاء تقرير عن المقاييس حسب التاريخ، ويتم تعديله يوميًا:

SELECT
  campaign_id,
  DATE(TIMESTAMP_MICROS(query_id.time_usec), @time_zone) AS event_date,
  COUNT(*) AS impressions
FROM adh.google_ads_impressions
GROUP BY 1,2

يجب عدم تنفيذ ذلك باستخدام نطاق زمني كبير لأنّ هذا سيؤدي إلى إعادة احتساب نتائج الأيام السابقة. بدلاً من ذلك، يجب تشغيل كل مهمة في آخر يوم فقط يتضمّن بيانات جديدة، ثم دمجها مع نتائج المهام السابقة. إذا أردت جمع كل النتائج في جدول واحد على مستوى العديد من المهام، ننصحك باستخدام عبارة MERGE.

سيظل بإمكانك إعادة احتساب النطاقات الزمنية السابقة لتحديث النتائج (على سبيل المثال، لاحتساب البيانات التي تصل متأخرة)، ولكن عليك تجنُّب إعادة احتساب أي نتيجة فردية عدة مرات، كما هو موضّح سابقًا.

إعادة التجميع المباشر

يتم تطبيق التشويش على الطبقة الأولى من التجميع على مستوى عدة مستخدمين في طلب البحث. ستجمع طلبات البحث التي تتضمّن طبقات تجميع متعددة النتائج غير الدقيقة، لذا قد تحتوي عمليات التجميع النهائية على قدر أكبر من التشويش. تتلقّى طلبات البحث هذه تحذيرًا بشأن صحة البيانات:

WITH layer_1 AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
)
# Reaggregation of partial_result with no user-level data, will be rejected
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

للحصول على أفضل النتائج من الضوضاء، يجب احتساب جميع العمليات التي تتم على مستوى عدة مستخدمين ضمن عملية تجميع واحدة. على سبيل المثال، يمكنك أخذ SUM من الأحداث بدلاً من SUM من عمليات العدّ الوسيطة.

إذا كان تجميع البيانات المتعدد الطبقات أمرًا لا يمكن تجنّبه، يمكنك حلّ التحذير من خلال تصدير النتائج مباشرةً من الطبقة الأولى بدلاً من ذلك. لإجراء ذلك ضمن مهمة واحدة بدون تغيير نتائج النص البرمجي، أنشئ جدولاً مؤقتًا (أو جدولاً تم تصديره إلى مشروعك على BigQuery) باستخدام بنية OPTIONS(privacy_checked_export=true). على سبيل المثال:

CREATE TEMP TABLE layer_1 OPTIONS(privacy_checked_export=true) AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
);
# Reaggregation of privacy checked data, no noise needed
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

مزيد من المعلومات حول الجداول المؤقتة

إذا كان مستوى التجميع الأول دقيقًا جدًا بالنسبة إلى عمليات التحقّق من الخصوصية، ننصحك بإعادة كتابة طلب البحث باستخدام عمليات التجميع على مستوى المستخدم. إذا لم يكن ذلك ممكنًا، يعني هذا أنّه لا يمكن استخدام طلب البحث هذا في وضع التشويش.

أرقام تعريف المستخدمين غير المرتبطة

يجب ألا تجمع طلبات البحث في وضع التشويش البيانات من مستخدمين منفصلين في صف واحد، إلا عند إجراء عملية تجميع مع التشويش. نتيجةً لذلك، يجب أن يتم الربط بين بيانات Ads Data Hub غير المجمّعة بشكل صريح باستخدام العمود user_id.

لا يربط طلب البحث هذا بشكل صريح بالعمود user_id، ما يؤدي إلى ظهور تحذير بشأن صحة البيانات:

SELECT …
FROM adh.google_ads_impressions
JOIN adh.google_ads_creative_conversions USING(impression_id)

قد لا تعمل عمليات الربط هذه على النحو المتوقّع لأنّه سيتم الربط فقط بين الصفوف التي تتضمّن القيمة نفسها في user_id. يمكن حلّ هذه المشكلة من خلال تعديل عبارة USING لتشمل user_id بشكل صريح، مثلاً USING(impression_id, user_id).

يُرجى العِلم أنّ هذا القيد ينطبق فقط على عمليات الربط بين جداول Ads Data Hub (باستثناء جداول السمات). ولا ينطبق ذلك على الجداول التي يملكها العميل. على سبيل المثال، يُسمح بما يلي:

SELECT …
FROM adh.google_ads_impressions
JOIN bigquery_project.dataset.table USING(any_column)

عمليات الربط الصحيحة بين Ads Data Hub وBigQuery

يمكن أن تؤدي عمليات الربط الخارجي مع البيانات التي يمتلكها العميل إلى ظهور صفوف تتضمّن معرّفات مستخدمين ناقصة، ما يمنع عمل ميزة "الحدّ من التشويش" بشكلٍ جيد.

يؤدي كلا هذين الطلبَين إلى ظهور تحذيرات بشأن صحة البيانات لأنّهما يسمحان بظهور صفوف غير متطابقة تتضمّن معرّفات مستخدمين ناقصة من جهة Ads Data Hub:

SELECT …
FROM adh.google_ads_impressions
RIGHT JOIN bigquery_project.dataset.table USING(column)

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions USING(column)

يُرجى العلم أنّ أيًا من عمليات الضم ستنجح إذا تم عكس ترتيب الجداول. هناك أيضًا استثناء لجداول معرّف الجهاز المتعلّق بالإعلانات التي يتم ربطها مباشرةً بعمود device_id_md5. على سبيل المثال، سيعمل طلب البحث التالي بدون أي تحذيرات:

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions_rdid USING(device_id_md5)

ملخّص الصفوف التي تمّت فلترتها

ملخّص الصف الذي تمت فلترته غير متاح في وضع التشويش. لا تكون هذه الميزة ضرورية في أغلب الأحيان مع التشويش بسبب انخفاض معدلات الفلترة وعدم توفّر الفلترة من عمليات التحقّق التفاضلي.

إذا لاحظت فلترة كبيرة للبيانات في نتيجة مشوّشة، عليك زيادة البيانات المجمّعة. يمكنك إجراء عملية تجميع متوازية على مجموعة البيانات الكاملة لمقارنة تقدير الإجمالي، على سبيل المثال:

SELECT campaign_name, COUNT(*)
FROM data
GROUP BY 1
UNION ALL
SELECT 'Total', COUNT(*)
FROM data
GROUP BY 1

يُرجى العِلم أنّه يتم تشويش العدد الإجمالي بشكل مستقل، وقد لا تتطابق القيم الإجمالية، ولكن غالبًا ما يكون العدد الإجمالي أكثر دقة من مجموع الصفوف المشوّشة.

الجداول التي تم إنشاؤها في وضع العرض المتعدّد

لا يمكن استخدام الجداول غير المصدَّرة في Ads Data Hub إلا مع وضع الخصوصية نفسه الذي تم إنشاؤها فيه. لا يمكنك إنشاء جدول في وضع التجميع العادي واستخدامه في وضع الحد من التشويش، أو العكس (إلا إذا تم تصدير هذا الجدول إلى BigQuery أولاً).

إضافة التشويش تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

التعرّف على مزايا استخدام ميزة "إضافة التشويش"

التعرّف على تأثير الضوضاء في متطلبات الخصوصية

فهم كيفية تأثير إضافة التشويش في النتائج

لمحة عن الحدّ من التجميع

التثبيت الضمني

التثبيت الصريح

تنفيذ طلب بحث باستخدام إضافة التشويش

مراجعة تأثير الضوضاء

تكييف طلبات البحث

دوال التجميع المتوافقة

دوال التجميع التكميلية

حساب الحدّ الأدنى والحدّ الأقصى

لمحة عن نتائج الأعداد الصحيحة

لمحة عن النتائج السلبية

المجموعات العامة

GROUP BY ROLLUP

إجمالي متّسق مع المجموعات العامة

مزايا استخدام المجموعات العامة مع ROLLUP

أمثلة على ROLLUP مع مجموعات عامة:

أنماط طلبات البحث المتوافقة

عمليات التجميع على مستوى المستخدم

التجميعات المتوازية

البيانات المجمَّعة المرتبطة بالبيانات غير المجمَّعة

أنماط طلبات البحث غير المتوافقة

طلبات البحث التي تتضمّن اليوم

النتائج المتكرّرة

لمحة عن فترات معاينة الإعلان

إعادة التجميع المباشر

أرقام تعريف المستخدمين غير المرتبطة

عمليات الربط الصحيحة بين Ads Data Hub وBigQuery

ملخّص الصفوف التي تمّت فلترتها

الجداول التي تم إنشاؤها في وضع العرض المتعدّد

إضافة التشويش