जानें कि ग़ैर-ज़रूरी डेटा का क्या मतलब है, इसे कहां जोड़ा जाता है, और इससे मेज़रमेंट पर क्या असर पड़ता है.
खास जानकारी वाली रिपोर्ट, अलग-अलग डेटा को मिलाकर तैयार की गई रिपोर्ट को एग्रीगेट करने से बनती हैं. जब एग्रीगेट की जा सकने वाली रिपोर्ट को कलेक्टर के ज़रिए बैच में बांटा जाता है और एग्रीगेशन सेवा के ज़रिए प्रोसेस किया जाता है, तो नॉइज़ यानी रैंडम डेटा, समरी रिपोर्ट में जोड़ दिया जाता है. उपयोगकर्ता की निजता को सुरक्षित रखने के लिए, नॉइज़ जोड़ा जाता है. इस प्रोसेस का मकसद, ऐसा फ़्रेमवर्क बनाना है जो अलग-अलग निजता मेज़रमेंट के साथ काम कर सके.

खास जानकारी वाली रिपोर्ट में शोर की जानकारी
आम तौर पर, आज विज्ञापन मेज़रमेंट में नॉइज़ जोड़ना ज़रूरी नहीं है. हालांकि, कई मामलों में नॉइज़ जोड़ने से, नतीजों के विश्लेषण के तरीके में काफ़ी बदलाव नहीं होगा.
इस बारे में इस तरह से सोचने से मदद मिल सकती है: अगर कोई डेटा ग़ैर-ज़रूरी नहीं है, तो क्या आप उस डेटा के आधार पर भरोसे के साथ फ़ैसला ले पाएंगे?
उदाहरण के लिए, क्या विज्ञापन देने वाला व्यक्ति इस बात के आधार पर, अपने कैंपेन की रणनीति या बजट में बदलाव कर सकता है कि कैंपेन A में 15 कन्वर्ज़न और कैंपेन B में 16 कन्वर्ज़न मिले?
अगर इसका जवाब 'नहीं' है, तो शोर कोई मायने नहीं रखता.
आपको एपीआई के इस्तेमाल को इस तरह से कॉन्फ़िगर करना होगा कि:
- ऊपर दिए गए सवाल का जवाब हां है.
- शोर को इस तरह मैनेज किया जाता है कि किसी डेटा के आधार पर फ़ैसला लेने की आपकी क्षमता पर काफ़ी असर न पड़े. इसे इस तरह से समझा जा सकता है: कन्वर्ज़न की उम्मीद की जाने वाली कम से कम संख्या के लिए, आपको इकट्ठा की गई मेट्रिक में नॉइज़ को किसी खास प्रतिशत से कम रखना होगा.
इस सेक्शन और अगले सेक्शन में, हम 2 को हासिल करने की रणनीतियों के बारे में बताएंगे.
मुख्य कॉन्सेप्ट
एग्रीगेशन सेवा, हर बार समरी रिपोर्ट का अनुरोध किए जाने पर, हर समरी वैल्यू में एक बार नॉइज़ जोड़ती है. इसका मतलब है कि हर कीवर्ड के लिए एक बार.
ये गड़बड़ी की वैल्यू, किसी खास प्रायिकता बंटन से रैंडम तौर पर ली जाती हैं. इस बारे में यहां बताया गया है.
शोर को कम करने वाले सभी एलिमेंट, दो मुख्य कॉन्सेप्ट पर निर्भर करते हैं.
नॉइज़ डिस्ट्रिब्यूशन (जानकारी यहां दी गई है) एक जैसा रहता है, भले ही समरी वैल्यू कम या ज़्यादा हो. इसलिए, समरी वैल्यू जितनी ज़्यादा होगी, इस वैल्यू के मुकाबले ग़ैर-महत्वपूर्ण डेटा का असर उतना ही कम होगा.
उदाहरण के लिए, मान लें कि 20,000 डॉलर की कुल खरीदारी की वैल्यू और 200 डॉलर की कुल खरीदारी की वैल्यू, दोनों एक ही डिस्ट्रिब्यूशन से चुने गए नॉइज़ के अधीन हैं.
मान लें कि इस डिस्ट्रिब्यूशन से होने वाला शोर, -100 से +100 के बीच है.
- खरीदारी की कुल वैल्यू 20,000 डॉलर होने पर, गड़बड़ी की दर 0 से 100/20,000=0.5% के बीच हो सकती है.
- 200 डॉलर की खरीदारी की खास जानकारी के लिए, गड़बड़ी 0 से 100/200=50% के बीच होती है.
इसलिए, 200 डॉलर की वैल्यू के मुकाबले, 20,000 डॉलर की कुल खरीदारी की वैल्यू पर गड़बड़ी का असर कम पड़ेगा. तुलनात्मक तौर पर, 20,000 डॉलर की कीमत वाले टिकट में कम शोर हो सकता है. इसका मतलब है कि इसका सिग्नल-टू-नॉइज़ रेशियो ज़्यादा हो सकता है.
इसका कुछ अहम असर होता है, जिसकी जानकारी अगले सेक्शन में दी गई है. यह तरीका, एपीआई के डिज़ाइन का हिस्सा है. इसका असर लंबे समय तक रहता है. विज्ञापन टेक्नोलॉजी के विशेषज्ञ, डेटा इकट्ठा करने की अलग-अलग रणनीतियों को डिज़ाइन करने और उनका आकलन करने में अहम भूमिका निभाते रहेंगे.
नॉइज़, समरी वैल्यू के बावजूद एक ही डिस्ट्रिब्यूशन से लिया जाता है. हालांकि, यह डिस्ट्रिब्यूशन कई पैरामीटर पर निर्भर करता है. इनमें से एक पैरामीटर, epsilon में, विज्ञापन टेक्नोलॉजी की मदद से बदलाव किया जा सकता है. ऐसा, ऑरिजिन ट्रायल के खत्म होने के बाद, अलग-अलग उपयोगिता/निजता अडजस्टमेंट का आकलन करने के लिए किया जाता है. हालांकि, एप्सीलॉन में बदलाव करने की सुविधा को कुछ समय के लिए ही इस्तेमाल करें. इस्तेमाल के उदाहरणों और अच्छी तरह से काम करने वाली एप्सिलॉन वैल्यू के बारे में अपने सुझाव, शिकायत या राय देने के लिए आपका स्वागत है.
विज्ञापन टेक्नोलॉजी से जुड़ी कंपनी, गड़बड़ी को जोड़ने के तरीकों को सीधे तौर पर कंट्रोल नहीं कर सकती. हालांकि, वह अपने मेज़रमेंट डेटा पर गड़बड़ी के असर को कम कर सकती है. अगले सेक्शन में, हम इस बारे में जानेंगे कि प्रैक्टिस में, शोर को कैसे कम किया जा सकता है.
इससे पहले, आइए हम यह जानें कि शोर को कैसे कम किया जाता है.
ज़ूम इन करने पर: ग़ैर-ज़रूरी आवाज़ को कैसे कम किया जाता है
शोर का एक डिस्ट्रिब्यूशन
शोर, लाप्लास डिस्ट्रिब्यूशन से लिया जाता है. इसके लिए, ये पैरामीटर इस्तेमाल किए जाते हैं:
- औसत (
μ
) 0 होना चाहिए. इसका मतलब है कि गड़बड़ी की सबसे सही वैल्यू 0 है (कोई गड़बड़ी नहीं जोड़ी गई है). साथ ही, गड़बड़ी वाली वैल्यू, ओरिजनल वैल्यू से कम या ज़्यादा हो सकती है. इसे कभी-कभी बिना किसी पूर्वाग्रह के कहा जाता है. b = CONTRIBUTION_BUDGET
/epsilon
का स्केल पैरामीटर.CONTRIBUTION_BUDGET
को ब्राउज़र में तय किया जाता है.epsilon
का इस्तेमाल Aggregation Service में किया जाता है.
इस डायग्राम में, μ=0 और b = 20 वाले लेप्लास डिस्ट्रिब्यूशन के लिए, प्रोबैबिलिटी डेंसिटी फ़ंक्शन दिखाया गया है:

ग़ैर-महत्वपूर्ण आवाज़ की अलग-अलग वैल्यू, ग़ैर-महत्वपूर्ण आवाज़ का एक डिस्ट्रिब्यूशन
मान लें कि कोई विज्ञापन टेक्नोलॉजी कंपनी, दो एग्रीगेशन कुंजियों, key1 और key2 के लिए खास जानकारी वाली रिपोर्ट का अनुरोध करती है.
एग्रीगेशन सेवा, एक ही नॉइज़ डिस्ट्रिब्यूशन के हिसाब से, दो नॉइज़ वैल्यू x1 और x2 चुनती है. x1 को key1 की खास जानकारी वाली वैल्यू में जोड़ा जाता है और x2 को key2 की खास जानकारी वाली वैल्यू में जोड़ा जाता है.
डायग्राम में, हम नॉइज़ वैल्यू को एक जैसा दिखाएंगे. यह एक आसान तरीका है. असल में, ग़ैर-ज़रूरी डेटा की वैल्यू अलग-अलग होंगी, क्योंकि इन्हें डिस्ट्रिब्यूशन से रैंडम तौर पर लिया जाता है.
इससे पता चलता है कि गड़बड़ी की सभी वैल्यू एक ही डिस्ट्रिब्यूशन से आती हैं. साथ ही, वे उस खास वैल्यू से अलग होती हैं जिस पर उन्हें लागू किया जाता है.
शोर की अन्य प्रॉपर्टी
गड़बड़ी की जांच, खास जानकारी वाली हर वैल्यू पर लागू होती है. इसमें खाली वैल्यू (0) भी शामिल हैं.

उदाहरण के लिए, अगर किसी कीवर्ड की सही खास जानकारी की वैल्यू 0 है, तब भी इस कीवर्ड की खास जानकारी वाली रिपोर्ट में आपको ग़ैर-ज़रूरी खास जानकारी की वैल्यू 0 नहीं दिखेगी.
गड़बड़ी की वैल्यू, पॉज़िटिव या नेगेटिव हो सकती है.

उदाहरण के लिए, गड़बड़ी से पहले की गई खरीदारी की रकम 3,27,000 होने पर, गड़बड़ी की रकम 6,000 या -6,000 हो सकती है. ये वैल्यू, उदाहरण के तौर पर दी गई हैं.
शोर का आकलन करना
शोर के स्टैंडर्ड डीविएशन की गिनती करना
ग़ैर-ज़रूरी आवाज़ का स्टैंडर्ड डिविएशन:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
उदाहरण
epsilon = 10 के लिए, गड़बड़ी का स्टैंडर्ड डेविएशन:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
मेज़रमेंट में अंतर होने पर, यह पता लगाना कि यह अंतर अहम है या नहीं
एग्रीगेशन सेवा की मदद से, हर वैल्यू के आउटपुट में जोड़े गए नॉइज़ का स्टैंडर्ड डेविएशन आपको पता होगा. इसलिए, तुलना के लिए सही थ्रेशोल्ड तय किए जा सकते हैं. इससे यह पता लगाया जा सकता है कि नतीजों में दिखने वाले अंतर, नॉइज़ की वजह से हो सकते हैं या नहीं.
उदाहरण के लिए, अगर किसी वैल्यू में जोड़ा गया नॉइज़ करीब +/- 10 (स्केलिंग के लिए) है और दो कैंपेन के बीच वैल्यू में अंतर 100 से ज़्यादा है, तो यह अनुमान लगाया जा सकता है कि हर कैंपेन के बीच मेज़र की गई वैल्यू में अंतर, सिर्फ़ नॉइज़ की वजह से नहीं है.
लोगों से जुड़ें और सुझाव, शिकायत या राय शेयर करें
आपके पास इस एपीआई में हिस्सा लेने और इसका इस्तेमाल करने का विकल्प है.
- एग्रीगेट करने लायक रिपोर्ट और एग्रीगेशन सेवा के बारे में पढ़ें, सवाल पूछें, और सुझाव दें.
- एट्रिब्यूशन रिपोर्टिंग गाइड पढ़ें.
- प्राइवसी सैंडबॉक्स डेवलपर सहायता रेपो पर सवाल पूछें और होने वाली चर्चाओं में शामिल हों.
अगले चरण
- सिग्नल-टू-नॉइज़ रेशियो को बेहतर बनाने के लिए, किन वैरिएबल को कंट्रोल किया जा सकता है, यह जानने के लिए नॉइज़ के साथ काम करना लेख पढ़ें.
- एग्रीगेशन रिपोर्टिंग की रणनीतियों को प्लान करने में मदद पाने के लिए, खास जानकारी वाली रिपोर्ट के डिज़ाइन से जुड़े फ़ैसलों के साथ प्रयोग करें लेख पढ़ें.
- Noise Lab आज़माएं.