כאן מוסבר מהו רעש, איפה הוא מתווסף ואיך הוא משפיע על המדידות.
דוחות סיכום הם תוצאה של צבירה של דוחות שניתן לצבור. כשדוחות שניתן לצבור אותם מקובצים על ידי אגרגטור ומעובדים על ידי שירות האגרגציה, רעשי רקע – כמות נתונים אקראית – מתווספים לדוחות הסיכום שמתקבלים. הרעש מתווסף כדי להגן על פרטיות המשתמשים. המטרה של המנגנון הזה היא ליצור מסגרת שיכולה לתמוך במדידת פרטיות דיפרנציאלית.

מבוא לרעשי רקע בדוחות סיכום
הוספת רעש לא נכללת בדרך כלל במדידת המודעות כיום, אבל במקרים רבים הרעש שנוסף לא ישנה באופן משמעותי את האופן שבו אתם מפרשים את התוצאות.
כדאי לחשוב על זה באופן הבא: האם הייתם בטוחים לקבל החלטה על סמך נתון מסוים אם הנתון הזה לא היה רועש?
לדוגמה, האם מפרסם יהיה בטוח לשנות את שיטת הקמפיין או את התקציבים שלו על סמך העובדה שלקמפיין א' היו 15 המרות ולקמפיין ב' היו 16 המרות?
אם התשובה היא 'לא', הרעשים לא רלוונטיים.
מומלץ להגדיר את השימוש ב-API כך:
- התשובה לשאלה שלמעלה היא כן.
- הרעשים מנוהלים בצורה שלא משפיעה באופן משמעותי על היכולת שלכם לקבל החלטה על סמך נתונים מסוימים. אפשר לבחור בגישה הבאה: עבור מספר מינימלי צפוי של המרות, רוצים שהרעש במדד שנאסף יהיה נמוך מ-% מסוים.
בקטע הזה ובקטע הבא נסקור אסטרטגיות להשגת היעד השני.
מושגי ליבה
שירות הצבירה מוסיף רעש פעם אחת לכל ערך סיכום – כלומר, פעם לכל מפתח – בכל פעם שמתבצעת בקשה לדוח סיכום.
ערכי הרעש האלה נשלפים באופן אקראי מהתפלגות הסתברות ספציפית, כפי שמתואר בהמשך.
כל הגורמים שמשפיעים על הרעש מבוססים על שני מושגים עיקריים.
חלוקת הרעש (פרטים בהמשך) זהה ללא קשר לערך הסיכום, נמוך או גבוה. לכן, ככל שערך הסיכום גבוה יותר, כך סביר להניח שהרעשי הרקע ישפיעו פחות עליו.
לדוגמה, נניח שגם ערך הרכישה המצטבר הכולל של 20,000 $וגם ערך הרכישה המצטבר הכולל של 200 $כפופים לרעש שנבחר מאותה התפלגות.
נניח שהרעש מההפצה הזו משתנה בערך בין -100 ל-100.
- בערך הסיכום של רכישות בסך 20,000$, רמת הרעש משתנה בין 0 ל-100/20,000=0.5%.
- בערך הסיכום של רכישות בסך 800 ש"ח, רמת הרעש משתנה בין 0 ל-100/200=50%.
לכן, סביר להניח שלרעש תהיה השפעה נמוכה יותר על ערך הרכישה המצטבר של 80,000 ש"ח מאשר על הערך של 800 ש"ח. באופן יחסי, סביר להניח ש-20,000$ יהיו פחות רועשים, כלומר סביר להניח שיחס האות לרעש יהיה גבוה יותר.
לכך יש כמה השלכות מעשיות חשובות שמפורטות בקטע הבא. המנגנון הזה הוא חלק מעיצוב ה-API, וההשלכות המעשיות שלו הן לטווח ארוך. הם ימשיכו למלא תפקיד חשוב בתכנון ובבדיקה של שיטות שונות של צבירת נתונים על ידי טכנולוגיות פרסום.
הרעש נוצר מאותה התפלגות ללא קשר לערך הסיכום, אבל ההתפלגות הזו תלויה בכמה פרמטרים. אחד מהפרמטרים האלה, epsilon, יכול להשתנות על ידי טכנולוגיות פרסום במהלך תקופת הניסיון שהסתיימה במקור, כדי להעריך התאמות שונות של תועלת או פרטיות. עם זאת, כדאי להתייחס לאפשרות לשנות את הערך של epsilon כזמנית. נשמח לקבל מכם משוב על תרחישי השימוש שלכם ועל הערכים של אפסילון שמתאימים לכם.
חברות פרסום דיגיטלי לא יכולות לשלוט באופן ישיר בדרכים שבהן רעשי רקע מתווספים, אבל הן יכולות להשפיע על ההשפעה של רעשי הרקע על נתוני המדידה שלהן. בקטעים הבאים נסביר איך אפשר להשפיע על הרעש בפועל.
לפני שנמשיך, נבחן לעומק את האופן שבו המערכת מחילה רעש.
התמקדות: איך הרעש מופעל
חלוקה אחת של רעשים
הרעש נשלף מהתפלגות Laplace, עם הפרמטרים הבאים:
- ממוצע (
μ
) של 0. המשמעות היא שערך הרעש הסביר ביותר הוא 0 (לא נוסף רעש), ושיש סיכוי שווה לכך שהערך עם הרעש יהיה קטן מהערך המקורי או גדול ממנו (לפעמים קוראים לזה ללא הטיה). - פרמטר סולם של
b = CONTRIBUTION_BUDGET
/epsilon
.CONTRIBUTION_BUDGET
מוגדר בדפדפן.epsilon
משמש ב-Aggregation Service.
בתרשים הבא מוצגת פונקציית צפיפות ההסתברות של התפלגות Laplace עם μ=0, b = 20:

ערכים של רעש אקראי, התפלגות רעש אחת
נניח שמערכת טכנולוגיית פרסום מבקשת דוחות סיכום לשני מפתחות צבירת נתונים, key1 ו-key2.
שירות האגרגציה בוחר שני ערכי רעש, x1 ו-x2, לפי אותו התפלגות רעש. הערך x1 מתווסף לערך הסיכום של המפתח key1, והערך x2 מתווסף לערך הסיכום של המפתח key2.
בתרשים, נציג את ערכי הרעש כזהים. זוהי הפשטה. בפועל, ערכי הרעש ישתנו כי הם נשלפים באופן אקראי מההפצה.
התרשים הזה מראה שכל ערכי הרעש מגיעים מאותה התפלגות, והם עצמאיים מערך הסיכום שאליו הם חלים.
מאפיינים אחרים של רעש
הרעש מוחלה על כל ערך סיכום, כולל ערכים ריקים (0).

לדוגמה, גם אם ערך הסיכום האמיתי של מפתח נתון הוא 0, ערך הסיכום עם הרעש שיוצג בדוח הסיכום של המפתח הזה (סביר להניח) לא יהיה 0.
הרעש יכול להיות מספר חיובי או שלילי.

לדוגמה, אם סכום הרכישה לפני הסינון של הרעש הוא 327,000, הערך של הרעש יכול להיות 6,000 או -6,000 (אלה ערכים לדוגמה שרירותיים).
הערכת הרעש
חישוב סטיית התקן של הרעש
סטיית התקן של הרעש היא:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
דוגמה
כש-epsilon = 10, סטיית התקן של הרעש היא:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
מתי ההבדלים בין המדידות משמעותיים
מכיוון שתוכלו לדעת מהי סטיית התקן של הרעש שנוסף לכל ערך שהשירות לצבירה מניב, תוכלו לקבוע ערכי סף מתאימים להשוואה כדי לקבוע אם ההבדלים שנצפו נובעים מרעש.
לדוגמה, אם הרעש שנוסף לערך הוא בערך +/- 10 (תוך התחשבות בהתאמה לערך) וההבדל בערך בין שני קמפיינים הוא מעל 100, סביר להניח שאפשר להסיק שההבדל בערך שנמדד בין כל קמפיין לא נובע מרעש בלבד.
עניין ושיתוף משוב
אתם יכולים להשתתף ב-API הזה ולהתנסות בו.
- מומלץ לקרוא על דוחות נצברים ועל שירות הצבירה, לשאול שאלות ולשלוח משוב.
- קראו את המדריכים לדיווח על שיוך (Attribution).
- אפשר לשאול שאלות ולהצטרף לדיונים במאגר התמיכה למפתחים של ארגז החול לפרטיות.
השלבים הבאים
- במאמר עבודה עם רעשי רקע מוסבר אילו משתנים אפשר לשלוט בהם כדי לשפר את יחס האות לרעש.
- במאמר ניסוי בהחלטות לגבי עיצוב דוחות סיכום מוסבר איך לתכנן אסטרטגיות דיווח על צבירת נתונים.
- כדאי לנסות את Noise Lab.