डिवाइस पर मनमुताबिक अनुभव देने के लिए, डिफ़रेंशियल प्राइवसी सिमैंटिक

इस दस्तावेज़ में, खास तौर पर डिफ़रेंशियल प्राइवसी के मामले में, डिवाइस पर उपयोगकर्ता को मनमुताबिक बनाने की प्रोसेस (ओडीपी) के बारे में निजता के तरीके के बारे में बताया गया है. दस्तावेज़ पर फ़ोकस बनाए रखने के लिए, निजता से जुड़े दूसरे पहलुओं और डिज़ाइन से जुड़े फ़ैसलों को जान-बूझकर शामिल नहीं किया गया है. जैसे, डेटा इकट्ठा करने पर प्रतिबंध लगाना.

डिफ़रेंशियल प्राइवसी

डिफ़रेंशियल प्राइवसी 1, आंकड़ों के विश्लेषण और मशीन लर्निंग 2 3 में, निजता सुरक्षा के लिए सबसे ज़्यादा इस्तेमाल किया जाने वाला स्टैंडर्ड है. अनौपचारिक रूप से, इसमें यह कहा जाता है कि विरोधी खिलाड़ी, अलग-अलग निजी एल्गोरिदम के आउटपुट से उपयोगकर्ता के बारे में बहुत कुछ वही सीखता है, चाहे उसका रिकॉर्ड मौजूदा डेटासेट में दिखता हो या नहीं. इसका मतलब है लोगों के लिए मज़बूत सुरक्षा: किसी व्यक्ति के बारे में कोई भी अनुमान, डेटासेट की एग्रीगेट प्रॉपर्टी की वजह से ही लगाया जा सकता है, जो उस व्यक्ति के रिकॉर्ड के साथ या उसके बिना हो.

मशीन लर्निंग के मामले में, एल्गोरिदम के आउटपुट को ट्रेन किए गए मॉडल पैरामीटर के तौर पर देखा जाना चाहिए. वाक्यांश करीब-करीब एक ही चीज़ को गणितीय तरीके से दो पैरामीटर (χ, Arts) की मदद से मापा जाता है. यहां एचटीटीपीएस को आम तौर पर एक छोटा कॉन्स्टेंट और ≪1/(उपयोगकर्ताओं की संख्या) माना जाता है.

प्राइवसी सिमेंटिक्स

ओडीपी डिज़ाइन का मकसद यह पक्का करना है कि हर ट्रेनिंग,उपयोगकर्ता लेवल पर अलग-अलग निजी हो. इस सिमैंटिक तक पहुंचने के हमारे तरीके के बारे में नीचे बताया गया है.

थ्रेट मॉडल

हम अलग-अलग पक्षों को तय करते हैं और हर एक के बारे में राज्य का अनुमान लगाते हैं:

  • उपयोगकर्ता: वह उपयोगकर्ता जिसके पास डिवाइस का मालिकाना हक है और जो डेवलपर के प्रॉडक्ट या सेवाओं का इस्तेमाल करता है. उनकी निजी जानकारी पूरी तरह से उनके पास होती है.
  • ट्रस्टेड एक्ज़ीक्यूशन एनवायरमेंट (टीईई): टीईई में होने वाले डेटा और भरोसेमंद कंप्यूटेशन को अलग-अलग टेक्नोलॉजी का इस्तेमाल करके, हमलावरों से सुरक्षित रखा जाता है. इसलिए, कंप्यूटेशन और डेटा के लिए किसी अतिरिक्त सुरक्षा की ज़रूरत नहीं होती. मौजूदा TEE, अपने प्रोजेक्ट के एडमिन को इसमें मौजूद जानकारी ऐक्सेस करने की अनुमति दे सकते हैं. हम यह रोकने और सत्यापित करने के लिए कस्टम क्षमताओं का प्रस्ताव देते हैं कि किसी व्यवस्थापक के लिए एक्सेस अनुपलब्ध है.
  • हमलावर: ऐसा हो सकता है कि उसके पास उपयोगकर्ता की अलग से जानकारी हो और उसके पास TEE के अलावा अन्य किसी भी जानकारी (जैसे कि पब्लिश किए गए मॉडल के पैरामीटर) का पूरा ऐक्सेस हो.
  • डेवलपर: वह व्यक्ति जो मॉडल के बारे में बताता है और उसे ट्रेनिंग देता है. गैर-भरोसेमंद माना जाता है (और हमलावर पूरी तरह से काम कर सकता है).

हम डिफ़रेंशियल प्राइवसी के इन सिमेंटिक्स के हिसाब से, ओडीपी को डिज़ाइन करना चाहते हैं:

  • ट्रस्ट की सीमा: एक उपयोगकर्ता के हिसाब से, ट्रस्ट की सीमा में टीईई के साथ उपयोगकर्ता का डिवाइस शामिल होता है. इस ट्रस्ट सीमा को छोड़ने वाली किसी भी जानकारी को डिफ़रेंशियल प्राइवसी के ज़रिए सुरक्षित किया जाना चाहिए.
  • हमलावर: हमलावर के लिए पूरी तरह से अलग निजता सुरक्षा. ट्रस्ट की सीमा के बाहर मौजूद कोई भी इकाई हमलावर हो सकती है. इसमें डेवलपर और अन्य उपयोगकर्ता शामिल हो सकते हैं, जो सभी के साथ मिलकर काम कर सकते हैं. हमलावर, ट्रस्ट की सीमा के बाहर की सारी जानकारी (उदाहरण के लिए, पब्लिश किया गया मॉडल), उपयोगकर्ता के बारे में किसी भी साइड की जानकारी, और अनगिनत संसाधन उपलब्ध कराता है. इसलिए, वह उपयोगकर्ता (इसके अलावा, साइड की जानकारी में पहले से मौजूद डेटा के अलावा) के निजी डेटा का अनुमान नहीं लगा सकता. ऐसा निजता के बजट में तय की गई सीमा तक ही किया जा सकता है. खास तौर पर, इसका मतलब है कि डेवलपर की निजता के लिए पूरी तरह सुरक्षित सुरक्षा. डेवलपर को रिलीज़ की गई किसी भी जानकारी (जैसे कि ट्रेन किए गए मॉडल पैरामीटर या कुल अनुमान) की निजता को सुरक्षित रखा जाता है.

लोकल मॉडल पैरामीटर

पिछले निजता सिमैंटिक उस मामले के लिए है जहां मॉडल के कुछ पैरामीटर डिवाइस के लोकल हैं. उदाहरण के लिए, ऐसा मॉडल जिसमें हर उपयोगकर्ता के लिए खास तौर पर एम्बेड किया गया कोई उपयोगकर्ता शामिल हो और उसे सभी उपयोगकर्ताओं के बीच शेयर न किया गया हो. ऐसे मॉडल के लिए, ये लोकल पैरामीटर ट्रस्ट के दायरे में रहते हैं (इन्हें पब्लिश नहीं किया जाता) और इनके लिए किसी सुरक्षा की ज़रूरत नहीं होती. हालांकि, शेयर किए गए मॉडल के पैरामीटर पब्लिश किए जाते हैं और डिफ़रेंशियल प्राइवसी के ज़रिए सुरक्षित किए जाते हैं. इसे कभी-कभी बिलबोर्ड निजता मॉडल 4 भी कहा जाता है.

सार्वजनिक सुविधाएं

कुछ ऐप्लिकेशन में, कुछ सुविधाएं सार्वजनिक होती हैं. उदाहरण के लिए, किसी फ़िल्म के सुझाव से जुड़ी समस्या में, किसी फ़िल्म की सुविधाएं (निर्देशक, शैली या फ़िल्म का रिलीज़ होने का साल) सार्वजनिक जानकारी हैं और उन्हें सुरक्षा की ज़रूरत नहीं होती. हालांकि, उपयोगकर्ता से जुड़ी सुविधाएं (जैसे, डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) या वे फ़िल्में जो उपयोगकर्ता ने देखी हैं) निजी डेटा होती हैं और इन्हें सुरक्षित रखना ज़रूरी होता है.

सार्वजनिक जानकारी को सार्वजनिक तौर पर उपलब्ध मैट्रिक्स के तौर पर दिखाया गया है. पिछले उदाहरण में, इस मैट्रिक्स के लिए हर मूवी के लिए एक पंक्ति और हर मूवी के लिए एक कॉलम होगा. यह सभी पक्षों के लिए उपलब्ध है. डिफ़रेंशियल प्राइवेट ट्रेनिंग एल्गोरिदम, इस मैट्रिक्स का इस्तेमाल कर सकता है और इसे सुरक्षित रखने की ज़रूरत नहीं है. उदाहरण के लिए, 5. ओडीपी प्लैटफ़ॉर्म इस तरह के एल्गोरिदम लागू करने की योजना बना रहा है.

अनुमान या अनुमान के दौरान निजता के लिए एक तरीका

अनुमान, मॉडल पैरामीटर और इनपुट सुविधाओं पर आधारित होते हैं. मॉडल पैरामीटर को डिफ़रेंशियल प्राइवसी सिमेंटिक्स के साथ ट्रेनिंग दी गई है. यहां इनपुट सुविधाओं की भूमिका के बारे में बताया गया है.

इस्तेमाल के कुछ मामलों में, जब डेवलपर के पास अनुमान में इस्तेमाल की जाने वाली सुविधाओं का पूरा ऐक्सेस होता है, तो अनुमान की निजता की चिंता नहीं की जाती. यह भी हो सकता है कि अनुमान का नतीजा डेवलपर को दिखे.

कुछ अन्य मामलों में, जब अनुमान में इस्तेमाल की गई सुविधाएं निजी होती हैं और डेवलपर उन्हें ऐक्सेस नहीं कर सकते, तो अनुमान के नतीजे को डेवलपर से छिपाया जा सकता है. उदाहरण के लिए, अनुमान (और अनुमान के नतीजे का इस्तेमाल करने वाली कोई भी डाउनस्ट्रीम प्रोसेस) को डिवाइस पर, ओएस के मालिकाना हक वाली प्रोसेस और डिसप्ले एरिया में चलाया जाना और उस प्रोसेस के बाहर बातचीत पर पाबंदी होना.

ट्रेनिंग प्रोसेस

ट्रेनिंग सिस्टम हाई-लेवल आर्किटेक्चर
पहली इमेज: सिस्टम के हाई-लेवल आर्किटेक्चर की ट्रेनिंग देना.

खास जानकारी

इस सेक्शन में, आर्किटेक्चर की खास जानकारी दी गई है. साथ ही, यह भी बताया गया है कि ट्रेनिंग कैसे आगे बढ़ती है, पहली इमेज देखें. ओडीपी इन कॉम्पोनेंट को लागू करता है:

  • कोई भरोसेमंद डिस्ट्रिब्यूटर, जैसे कि फ़ेडरेटेड सिलेक्ट, भरोसेमंद डाउनलोड या निजी जानकारी वापस पाना. यह ब्रॉडकास्टिंग मॉडल पैरामीटर की भूमिका निभाता है. यह माना जाता है कि भरोसेमंद डिस्ट्रिब्यूटर हर क्लाइंट को पैरामीटर का एक सबसेट भेज सकता है. इससे यह पता नहीं चलता कि किस क्लाइंट ने कौनसे पैरामीटर डाउनलोड किए थे. इस "पार्शियल ब्रॉडकास्ट" की मदद से, असली उपयोगकर्ता के डिवाइस पर फ़ुटप्रिंट कम से कम किया जा सकता है: किसी भी उपयोगकर्ता को मॉडल की पूरी कॉपी भेजने के बजाय, मॉडल पैरामीटर का सिर्फ़ कुछ हिस्सा भेजा जाता है.

  • एक भरोसेमंद एग्रीगेटर, जो कई क्लाइंट की जानकारी (जैसे कि ग्रेडिएंट या दूसरे आंकड़े) इकट्ठा करता है, शोर जोड़ता है और सर्वर पर नतीजे भेजता है. माना जाता है कि क्लाइंट और एग्रीगेटर के बीच, और क्लाइंट और डिस्ट्रिब्यूटर के बीच भरोसेमंद चैनल होते हैं.

  • इस इन्फ़्रास्ट्रक्चर पर चलने वाले डीपी ट्रेनिंग एल्गोरिदम. हर ट्रेनिंग एल्गोरिदम में अलग-अलग कॉम्पोनेंट (सर्वर, क्लाइंट, एग्रीगेटर, डिस्ट्रिब्यूटर) पर चलने वाले अलग-अलग कंप्यूटेशन होते हैं.

आम तौर पर, ट्रेनिंग के दौरान ये चरण शामिल होते हैं:

  1. सर्वर, मॉडल पैरामीटर को भरोसेमंद डिस्ट्रिब्यूटर को ब्रॉडकास्ट करता है.
  2. क्लाइंट कंप्यूटेशन
    • हर क्लाइंट डिवाइस को ब्रॉडकास्ट मॉडल (या उपयोगकर्ता के लिए काम के पैरामीटर का सबसेट) मिलता है.
    • हर क्लाइंट कुछ कैलकुलेशन करता है. उदाहरण के लिए, कंप्यूटिंग ग्रेडिएंट या दूसरे ज़रूरी आंकड़े.
    • हर क्लाइंट, कंप्यूटेशन के नतीजे भरोसेमंद एग्रीगेटर को भेजता है.
    • भरोसेमंद एग्रीगेटर, अलग-अलग निजता प्रक्रियाओं का इस्तेमाल करके क्लाइंट से आंकड़ों को इकट्ठा करता है, इकट्ठा करता है, और सुरक्षित रखता है. इसके बाद, नतीजों को सर्वर पर भेजता है.
  3. सर्वर कंप्यूटेशन
  4. सर्वर, डिफ़रेंशियल प्राइवेट एग्रीगेट किए गए ग्रेडिएंट का इस्तेमाल करता है. इससे मॉडल पैरामीटर को अपडेट किया जा सकता है. हालांकि, ऐसा करने से पहले, यह सर्वर अलग-अलग निजता सुरक्षा वाले आंकड़ों का इस्तेमाल करता है. हालांकि, इस पर भरोसा नहीं किया जा सकता.

फ़ैक्टराइज़्ड मॉडल और डिफ़रेंशियल प्राइवेट ऑल्टरनेटिंग मिनिमाइज़ेशन

ओडीपी प्लैटफ़ॉर्म, अलग-अलग मकसद के लिए डिज़ाइन किए गए निजी ट्रेनिंग एल्गोरिदम उपलब्ध कराने की योजना बना रहा है. इन्हें किसी भी मॉडल आर्किटेक्चर (जैसे, DP-SGD 6 7 8 या DP-FTRL 9 10) पर लागू किया जा सकता है. साथ ही, यह फ़ैक्टर मॉडल के लिए खास एल्गोरिदम भी उपलब्ध कराता है.

फ़ैक्टराइज़्ड मॉडल ऐसे मॉडल होते हैं जिन्हें सब-मॉडल (एन्कोडर या टावर कहा जाता है) में बांटा जा सकता है. उदाहरण के लिए, f(u(θu, xu), v(θv, xv)) रूप के मॉडल पर विचार करें, जिसमें u() उपयोगकर्ता की सुविधाओं xu को कोड में बदलता है (और इसमें पैरामीटर θu है). साथ ही, v(), इस्तेमाल न की जाने वाली सुविधाओं xv (और पैरामीटर θv) को कोड में बदलता है. फ़ाइनल मॉडल का अनुमान लगाने के लिए, दो एन्कोडिंग को f() का इस्तेमाल करके जोड़ा जाता है. उदाहरण के लिए, फ़िल्म के सुझाव वाले मॉडल में, xu उपयोगकर्ता की सुविधाएं हैं और xv फ़िल्म की सुविधाएं हैं.

ऐसे मॉडल, ऊपर बताए गए डिस्ट्रिब्यूटेड सिस्टम आर्किटेक्चर के हिसाब से अच्छी तरह से काम करते हैं. ऐसा इसलिए, क्योंकि ये उपयोगकर्ता और गैर-उपयोगकर्ता सुविधाओं को अलग करते हैं.

फ़ैक्टराइज़्ड मॉडल को डिफ़रेंशियली प्राइवेट ऑल्टरनेटिंग मिनिमाइज़ेशन (डीपीएएम) का इस्तेमाल करके ट्रेनिंग दी जाएगी. यह पैरामीटर, θu (जब θv पर वैल्यू न हो) को ऑप्टिमाइज़ करता है. इसके बाद, यह पैरामीटर को ऑप्टिमाइज़ करता है. डीपीएएम एल्गोरिदम की कई सेटिंग 4 11 में बेहतर इस्तेमाल की सुविधा मिलती है. खास तौर पर, सार्वजनिक तौर पर उपलब्ध सुविधाएं इस्तेमाल करने पर.

रेफ़रंस