درک نویز در گزارش های خلاصه

بیاموزید که نویز به چه معناست، کجا اضافه می شود و چگونه بر تلاش های اندازه گیری شما تأثیر می گذارد.

گزارش های خلاصه نتیجه تجمیع گزارش های انباشته است. هنگامی که گزارش‌های جمع‌آوری‌شده توسط جمع‌آوری دسته‌بندی می‌شوند و توسط سرویس تجمیع پردازش می‌شوند، نویز (مقدار تصادفی داده) به گزارش‌های خلاصه حاصل اضافه می‌شود. نویز برای محافظت از حریم خصوصی کاربر اضافه شده است. هدف این مکانیسم داشتن چارچوبی است که بتواند از اندازه گیری خصوصی متفاوت پشتیبانی کند.

نویز در گزارش خلاصه نهایی اضافه می شود.

مقدمه ای بر نویز در گزارش های خلاصه

در حالی که امروزه اضافه کردن نویز معمولاً بخشی از اندازه گیری تبلیغات نیست، در بسیاری از موارد نویز اضافه شده به طور قابل ملاحظه ای نحوه تفسیر نتایج خود را تغییر نمی دهد.

فکر کردن به روش زیر ممکن است به شما کمک کند: آیا اگر آن داده ها پر سر و صدا نباشند، مطمئن هستید که بر اساس یک قطعه خاص از داده تصمیم می گیرید؟

برای مثال، بر اساس این واقعیت که کمپین A 15 تبدیل و کمپین B 16 تبدیل داشته است، آیا یک تبلیغ کننده در تغییر استراتژی یا بودجه کمپین خود مطمئن است؟

اگر پاسخ منفی است، سر و صدا بی ربط است.

کاری که می خواهید انجام دهید این است که استفاده از API خود را به گونه ای پیکربندی کنید که:

  1. پاسخ به سوال بالا بله است.
  2. نویز به گونه ای مدیریت می شود که تأثیر قابل توجهی بر توانایی شما برای تصمیم گیری بر اساس داده های خاص ندارد. شما می توانید به این صورت برخورد کنید: برای حداقل تعداد مورد انتظار تبدیل، می خواهید نویز را در متریک جمع آوری شده زیر یک درصد معین نگه دارید.

در این بخش و موارد زیر، استراتژی هایی را برای دستیابی به 2 بیان می کنیم.

مفاهیم اصلی

سرویس تجمیع یک بار به هر مقدار خلاصه نویز اضافه می کند - یعنی یک بار برای هر کلید - هر بار که یک گزارش خلاصه درخواست می شود.

این مقادیر نویز به طور تصادفی از یک توزیع احتمال خاص که در زیر مورد بحث قرار گرفته است، استخراج می شوند.

تمام عناصری که نویز را تحت تاثیر قرار می دهند بر دو مفهوم اصلی تکیه دارند.

  1. توزیع نویز ( جزئیات زیر ) صرف نظر از مقدار خلاصه، کم یا زیاد، یکسان است. بنابراین، هرچه مقدار خلاصه بالاتر باشد، نویز احتمال دارد تاثیر کمتری نسبت به این مقدار داشته باشد.

    به عنوان مثال، فرض کنید که هر دو ارزش کل خرید 20000 دلار و کل ارزش خرید 200 دلار در معرض نویز انتخاب شده از همان توزیع هستند.

    بیایید فرض کنیم نویز این توزیع تقریباً بین -100 و +100 متغیر است.

    • برای ارزش خرید خلاصه 20000 دلار، نویز بین 0 و 100/20000 = 0.5٪ متغیر است.
    • برای ارزش خرید خلاصه 200 دلار، نویز بین 0 و 100/200 = 50٪ متغیر است.

    بنابراین، نویز احتمالاً تأثیر کمتری بر ارزش خرید 20000 دلاری کل نسبت به ارزش 200 دلاری دارد. به طور نسبی، 20000 دلار احتمالاً نویز کمتری دارد، یعنی احتمالاً نسبت سیگنال به نویز بالاتری دارد.

    مقادیر تجمعی بالاتر تأثیر نویز نسبتاً کمتری دارند.

    این چند پیامد عملی مهم دارد که در بخش بعدی به آنها اشاره خواهد شد. این مکانیزم بخشی از طراحی API است و پیامدهای عملی آن بلند مدت است. هنگامی که فناوری های تبلیغاتی استراتژی های مختلف تجمیع را طراحی و ارزیابی می کنند، نقش مهمی را ایفا خواهند کرد.

  2. در حالی که نویز بدون توجه به مقدار خلاصه از همان توزیع گرفته می شود، این توزیع به پارامترهای مختلفی بستگی دارد. یکی از این پارامترها، اپسیلون ، می‌تواند توسط فن‌آوری‌های تبلیغاتی در طول آزمایش منشأ نهایی برای ارزیابی تنظیمات مختلف ابزار/حریم خصوصی تغییر داده شود. با این حال، توانایی بهینه سازی اپسیلون را موقتی در نظر بگیرید. ما از بازخورد شما در مورد موارد استفاده و ارزش های epsilon که به خوبی کار می کنند استقبال می کنیم.

در حالی که یک شرکت فناوری تبلیغات کنترل مستقیم راه‌های اضافه کردن نویز را ندارد، می‌تواند تأثیر نویز بر داده‌های اندازه‌گیری خود را تحت تأثیر قرار دهد. در بخش‌های بعدی، به نحوه تأثیرگذاری نویز در عمل خواهیم پرداخت.

قبل از انجام این کار، اجازه دهید نگاهی دقیق تر به نحوه اعمال نویز بیندازیم.

بزرگنمایی: نحوه اعمال نویز

یک توزیع نویز

نویز از توزیع لاپلاس با پارامترهای زیر گرفته می شود:

  • میانگین ( μ ) 0. این بدان معنی است که محتمل ترین مقدار نویز 0 است (بدون نویز اضافه شده) و مقدار نویز به همان اندازه کوچکتر از مقدار اصلی است که بزرگتر است (این امر گاهی اوقات بی طرف نامیده می شود. ).
  • پارامتر مقیاس b = CONTRIBUTION_BUDGET / epsilon .
    • CONTRIBUTION_BUDGET در مرورگر تعریف شده است.
    • epsilon در سرور تجمع ثابت شده است.

نمودار زیر تابع چگالی احتمال را برای توزیع لاپلاس با μ=0، b=20 نشان می دهد:

تابع چگالی احتمال برای توزیع لاپلاس با μ=0، b=20

مقادیر تصادفی نویز، یک توزیع نویز

بیایید فرض کنیم که یک فناوری تبلیغاتی برای دو کلید تجمیع، key1 و key2، گزارش‌های خلاصه درخواست می‌کند.

سرویس تجمیع دو مقدار نویز x1 و x2 را به دنبال توزیع نویز یکسان انتخاب می کند. x1 به مقدار خلاصه برای key1 و x2 به مقدار خلاصه برای key2 اضافه می شود.

در نمودارها، مقادیر نویز را یکسان نشان خواهیم داد. این یک ساده سازی است. در واقع، مقادیر نویز متفاوت خواهند بود، زیرا به طور تصادفی از توزیع گرفته می شوند.

این نشان می‌دهد که مقادیر نویز همه از یک توزیع می‌آیند و مستقل از مقدار خلاصه‌ای هستند که روی آن اعمال می‌شوند.

سایر خواص نویز

نویز برای هر مقدار خلاصه اعمال می شود - از جمله مقادیر خالی (0).

حتی مقادیر خلاصه خالی نیز در معرض نویز هستند.

برای مثال، حتی اگر مقدار خلاصه واقعی برای یک کلید معین 0 باشد، مقدار خلاصه نویزدار که در گزارش خلاصه برای این کلید خواهید دید (به احتمال زیاد) 0 نخواهد بود.

نویز می تواند یک عدد مثبت یا منفی باشد.

نمونه هایی از نویز مثبت و منفی

به عنوان مثال، برای یک مقدار خرید قبل از نویز 327000، نویز ممکن است 6000+ یا -6000 باشد (این مقادیر نمونه دلخواه هستند).

ارزیابی نویز

محاسبه انحراف استاندارد نویز

انحراف استاندارد نویز عبارت است از:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
مثال

با اپسیلون = 10، انحراف استاندارد نویز به صورت زیر است:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

ارزیابی زمانی که تفاوت های اندازه گیری قابل توجه است

از آنجا که شما انحراف استاندارد نویز اضافه شده به هر مقدار خروجی توسط سرویس تجمیع را می دانید، می توانید آستانه های مناسبی را برای مقایسه تعیین کنید تا تعیین کنید آیا تفاوت های مشاهده شده می تواند به دلیل نویز باشد یا خیر.

به عنوان مثال، اگر نویز اضافه شده به یک مقدار تقریباً +/- 10 باشد (با محاسبه مقیاس) و تفاوت در مقدار بین دو کمپین بیش از 100 باشد، احتمالاً می توان نتیجه گرفت که تفاوت در مقدار اندازه گیری شده بین هر کمپین فقط به خاطر سر و صدا نیست

互动和分享反馈

您可以参与试用并试用此 API

مراحل بعدی