עבודה עם רעש

בדוחות המצטברים תוכלו ללמוד איך לעבוד עם רעשי רקע, איך להביא בחשבון את ההשפעה שלהם ולהפחית אותה.

לפני שממשיכים, כדי להבין לעומק מה הוא רעש וההשפעה שלו, עיינו במאמר הסבר על רעש בדוחות סיכום.

לא ניתן לשלוט ישירות ברעש שמוסיפים לדוחות המצטברים, אבל יש פעולות שאפשר לבצע כדי למזער את ההשפעה הזו. הקטעים הבאים מסבירים את האסטרטגיות האלה.

כמו שמוסבר במאמר 'הסבר על רעש', הרעש שהוחל על הערך הסיכום של כל מפתח מבוסס על סולם מ-0 עד 65,536 (0 עד CONTRIBUTION_BUDGET).

התפלגות הרעש מבוססת על התקציב.

לכן, כדי למקסם את האות ביחס לרעש, כדאי להגדיל כל ערך לפני שמגדירים אותו כערך נצברים. כלומר, מכפילים כל ערך בגורם מסוים, גורם קנה מידה, תוך כדי הקפדה על כך שהוא יישאר במסגרת תקציב התרומה.

רעש יחסי עם ובלי הגדלה באחוזים.

חישוב גורם לשינוי קנה מידה

גורם קנה המידה מייצג את המידה שבה ברצונך להתאים את הגודל של ערך מצטבר נתון. הערך של המפתח צריך להיות סכום התקציב לתרומה חלקי הערך הנצבר המקסימלי של מפתח מסוים.

קביעת גורם ההתאמה על סמך תקציב התרומה.

לדוגמה, נניח שהמפרסמים רוצים לדעת את ערך הרכישה הכולל. אתם יודעים שערך הרכישה המקסימלי הצפוי של כל רכישה בודדת הוא 2,000$, חוץ מכמה חריגים שהחלטתם להתעלם מהם:

  • חשבו את הגורם לשינוי קנה המידה:
    • כדי למקסם את יחס האות לרעש, צריך להגדיל את הערך הזה ל-65,536 (התקציב לתרומה).
    • התוצאה היא גורם קנה מידה של 32x (65,536 / 2,000). בפועל, אפשר לעגל את הגורם הזה כלפי מעלה או כלפי מטה.
  • הגדלת הערכים לפני הצבירה. עבור כל רכישה של $1, מגדילים את המדד שבמעקב ב-32. לדוגמה, ברכישה של $120, מגדירים את הערך הצבור של 120*32 = 3,840.
  • הקטנת הערכים לאחר צבירת נתונים. אחרי שמקבלים את דוח הסיכום שמכיל את ערך הרכישה שמסכם מכמה משתמשים, כדאי להקטין את ערך הסיכום באמצעות גורם שינוי הגודל שבו השתמשתם לפני הצבירה. בדוגמה שלנו השתמשנו בגורם הגדלה באחוזים של 32, לכן עלינו לחלק ב-32 את ערך הסיכום שהתקבל בדוח הסיכום. לכן, אם סיכום הרכישה של מפתח נתון בדוח הסיכום הוא 76,800, ערך הרכישה הכולל (עם רעש) הוא 76,800/32 = 2,400$.

פיצול התקציב

אם הגדרתם כמה יעדי מדידה, כמו מספר הרכישות וערך הרכישות, מומלץ לחלק את התקציב בין היעדים האלה.

במקרה הזה, גורמי ההתאמה לעומס (scaling) יהיו שונים בערכים נצברים שונים, בהתאם לערך המקסימלי הצפוי של ערך מצטבר נתון.

קראו פרטים במאמר הסבר על מפתחות צבירה.

לדוגמה, נניח שאתם עוקבים גם אחר ספירת הרכישות וגם ערך הרכישה, והחלטתם להקצות את התקציב באופן שווה.

אפשר להקצות 65,536 / 2 = 32,768 לכל סוג מדידה ולכל מקור.

  • ספירת רכישות:
    • אתם עוקבים אחרי רכישה אחת בלבד, ולכן מספר הרכישות המקסימלי לכל המרה נתונה הוא 1.
    • לכן, אתם מחליטים להגדיר את גורם ההרחבה של מספר הרכישות ל-32,768 / 1 = 32,768.
  • ערך רכישה:
    • נניח שערך הרכישה המקסימלי הצפוי של כל רכישה בודדת הוא 2,000$.
    • לכן, אתם מחליטים להגדיר את גורם הגודל של ערך הרכישה ל-32,768 / 2,000 = 16.384 או בערך 16.

מקשי צבירה גסים משפרים את יחס האות לרעש

מפתחות גולמיים קולטים יותר אירועי המרה מאשר מפתחות מפורטים, לכן מפתחות משוערים מובילים בדרך כלל לערכי סיכום גבוהים יותר.

ערכי סיכום גבוהים יותר מושפעים פחות מרעש מאשר ערכים נמוכים יותר. סביר להניח שהרעש בערכים האלה יהיה נמוך יותר, בהשוואה לערך הזה.

ערכים שנאספים באמצעות מפתחות גסים יותר צפויים להיות פחות רועשים באופן יחסי מאשר ערכים שנאספו באמצעות מפתחות מפורטים יותר.

דוגמה

אם כל שאר התנאים זהים, מפתח שעוקב אחר ערך הרכישה באופן גלובלי (בסיכום כל המדינות) יוביל לערך סיכום גבוה יותר (ומספר המרות גבוה יותר בסיכום) בהשוואה למפתח שעוקב אחר המרות ברמת המדינה.

לכן, הרעש היחסי בערך הרכישה הכולל במדינה מסוימת יהיה גבוה יותר מהרעש היחסי בערך הרכישה הכולל בכל המדינות.

באופן דומה, כל שאר התנאים שווים, ערך הרכישה הכולל של נעליים נמוך מערך הרכישה הכולל של כל הפריטים (כולל נעליים).

לכן, הרעש היחסי בערך הרכישה הכולל של נעליים יהיה גבוה יותר מהרעש היחסי בערך הרכישה הכולל של כל הפריטים.

השפעת הרעש באמצעות מקשים מפורטים לעומת רעשי רקע גסים.

גם סיכום ערכי סיכום (סיכומים) מסכם את הרעש.

באמצעות סיכום ערכי הסיכום מדוחות הסיכום כדי לגשת לנתונים ברמה גבוהה יותר, אתם גם מסכם את הרעש מערכי הסיכום האלה.

רמת הרעש עם מפתחות מפורטים עם אוסף ערוצים לעומת מפתחות בפירוט גס ללא אוסף ערוצים

נבחן שתי גישות שונות: - גישה א': אתם כוללים מזהה גיאוגרפי במפתחות שלכם. דוחות סיכום חושפים מפתחות ברמת מזהה גיאוגרפי, שכל אחד מהם משויך לערך סיכום הרכישה ברמת מזהה גיאוגרפי ספציפי. - גישה ב': לא כוללים במפתחות מזהה גיאוגרפי. דוחות סיכום חושפים באופן ישיר את ערך סיכום הרכישה של כל מזהי המיקומים הגיאוגרפיים / המיקומים.

כדי לגשת לערך רכישה ברמת המדינה: - בגישה א', מסכמים ערכי סיכום ברמת ה-geo-ID, וכתוצאה מכך גם מחשבים את הרעש שלהם. סביר להניח שהדבר יגרום לרעש נוסף לערך הרכישה הסופי ברמת מזהה הגיאוגרפי (geo-ID). - בגישה ב', אתם בוחנים ישירות את הנתונים שנחשפים בדוחות סיכום. נוסף רעש רק פעם אחת לנתונים האלה.

לכן, סיכום הרכישה של מזהה גיאוגרפי נתון צפוי להיות רועש יותר בגישה א'.

באופן דומה, אם כוללים במפתחות מאפיין ברמת המיקוד, התוצאות יהיו רועשות יותר מאשר שימוש במפתחות גסים יותר עם מאפיין ברמת האזור.

צבירת נתונים לאורך תקופות ארוכות יותר מגדילה את יחס האות לרעש

המשמעות של בקשה לדוחות סיכום בתדירות נמוכה יותר היא שסביר להניח שכל ערך סיכום יהיה גבוה יותר ממה שביקשתם דוחות בתדירות גבוהה יותר. עשויות להתרחש יותר המרות בפרקי זמן ארוכים יותר.

כפי שצוין קודם, ככל שערך הסיכום גבוה יותר, כך סביר להניח שהרעש היחסי יהיה נמוך יותר. לכן, בקשה לדוחות סיכום בתדירות נמוכה יותר מובילה לאות גבוה יותר (טוב יותר) ליחס רעש.

בקשה של דוחות סיכום בתדירות נמוכה יותר מובילה לאות גבוה יותר ליחס רעש

לדוגמה:

  • אם מבקשים דוחות סיכום שעתיים במשך 24 שעות ולאחר מכן מסכם את ערך הסיכום מכל דוח שעתי כדי לגשת לנתונים ברמת היום, הרעש יתווסף 24 פעמים.
  • בדוח סיכום יומי אחד, הרעש מתווסף רק פעם אחת.

אפסילון גבוה יותר, רעש נמוך יותר

ככל שהערך של אפסילון גבוה יותר, כך הרעש נמוך יותר וההגנה על הפרטיות נמוכה יותר.

מינוף סינון וביטול כפילויות

חלק חשוב בהקצאת התקציב בין מפתחות שונים הוא היכולת להבין כמה פעמים יכול לקרות אירוע נתון. לדוגמה, מפרסם עשוי לעניין רק רכישה אחת לכל קליק, אבל הוא עשוי להתעניין ב-3 "צפייה בדף מוצר" לכל היותר המרות. כדי לתמוך בתרחישי השימוש האלה, מומלץ להשתמש גם בתכונות ה-API הבאות, שמאפשרות לשלוט במספר הדוחות שנוצרים ובהמרות שנספרות:

התנסות עם אפסילון

טכנולוגיות הפרסום יכולות להגדיר את אפסילון לערך שגדול מ-0, עד 64, כולל. הטווח הזה מאפשר בדיקות גמישות. ערכים נמוכים יותר של אפסילון מספקים הגנה טובה יותר על הפרטיות. מומלץ להתחיל במחרוזת epsilon=10.

המלצות לניסוי

מומלץ לבצע את הפעולות הבאות: - התחל באפסילון = 10. - במקרה שהבעיה גורמת לבעיות משמעותיות ביעילות, להגדיל את אפסילון בהדרגה. - נשמח לקבל מכם משוב לגבי נקודות מבט ספציפיות לגבי נוחות השימוש בנתונים.

עניין ושיתוף משוב

אתם יכולים להשתתף ב-API הזה ולהתנסות בו.

השלבים הבאים