जनरेटिव मॉडल के लिए सुरक्षा और निष्पक्षता पर विचार

जनरेट करने वाले एआई (AI) की मदद से, क्रिएटिविटी को अनलॉक किया जा सकता है. प्रॉडक्टिविटी बढ़ाई जा सकती है और रोज़ाना के कामों को आसान बनाया जा सकता है. हालांकि, शुरुआती चरण की टेक्नोलॉजी के तौर पर, इसका इस्तेमाल सावधानी से करना चाहिए. यह संसाधन एआई (AI) वाले प्रॉडक्ट में सुरक्षा और निष्पक्षता के तरीकों की बारीकी से जांच करता है.

शुरुआती जानकारी

तेज़ी से सक्रिय होने वाले एआई (AI) के विकास की वजह से, बाज़ार में आने वाली सुविधाएं और प्रॉडक्ट, कम समय के अंदर ही मार्केटिंग करने लगे हैं. एआई (AI) वाली क्षमताओं का इस्तेमाल करके प्रॉडक्ट लॉन्च करने वाली टीमों को यह पक्का करना चाहिए कि वे एआई (AI) सिद्धांतों के मुताबिक, अच्छी क्वालिटी, सही, और समान उपयोगकर्ता अनुभव उपलब्ध करा सकें.

जनरेटिव ऐप्लिकेशन के लिए एक ज़िम्मेदार तरीके से, नीचे दी गई बातों को पूरा करने वाले प्लान दिए जाने चाहिए:

  • कॉन्टेंट की नीतियों, संभावित नुकसान, और जोखिम का विश्लेषण
  • ज़िम्मेदार जनरेशन
  • नुकसान से बचाव
  • इवैलुएशन और विज्ञापन की जांच

कॉन्टेंट से जुड़ी नीतियां, नुकसान, और जोखिम का विश्लेषण

प्रॉडक्ट को उस कॉन्टेंट के मुताबिक होना चाहिए जो उपयोगकर्ता को जनरेट करने की अनुमति नहीं है. Google की प्रशिक्षित एआई (AI) की इस्तेमाल से जुड़ी नीति में, Google की कवर की गई सेवाओं के लिए, इस्तेमाल के खास उदाहरण शामिल हैं.

इस्तेमाल के इन तरीकों के बारे में ज़्यादा जानने के लिए, आधिकारिक नीति देखें. अपने प्रॉडक्ट के इस्तेमाल के उदाहरण में, ज़िम्मेदारी से मेल खाने वाली जनरेशन के लक्ष्यों को ध्यान में रखते हुए, यह तय करें कि "नीति" का उल्लंघन न होने या "बुरा" होने के अलावा, "अच्छा" कॉन्टेंट क्या है. आपकी टीम को इस्तेमाल के ऐसे मामलों के बारे में भी साफ़ तौर पर बताना चाहिए और उनका ब्यौरा देना चाहिए जिन्हें नीति का उल्लंघन माना जाएगा या जो "असफलता मोड" का इस्तेमाल करेंगे.

उपयोगकर्ताओं को नुकसान से बचाने के लिए, कॉन्टेंट की नीतियां बस एक कदम है. क्वालिटी, सुरक्षा, फ़ेयरनेस, और शामिल किए जाने के लिए, लक्ष्यों और दिशा-निर्देशों को ध्यान में रखना भी ज़रूरी है.

क्वालिटी

टीमों को संवेदनशील वर्टिकल में क्वेरी का जवाब देने के लिए रणनीतियां बनानी चाहिए, जैसे कि अच्छी क्वालिटी वाले उपयोगकर्ता अनुभव देने के लिए. ज़िम्मेदार रणनीतियों में कई पहलू शामिल करना, ऐसे विषय शामिल नहीं किए जाते जो विज्ञान से जुड़े सबूतों के बिना रोके गए हों या सिर्फ़ एट्रिब्यूशन के साथ तथ्यों से जुड़ी जानकारी देते हों.

सुरक्षा

एआई (AI) से जुड़े सुरक्षा उपायों का मकसद, ऐसी कार्रवाइयों को रोकना या उन्हें रोकना है जो उपयोगकर्ताओं को, जान-बूझकर या अनजाने में नुकसान पहुंचा सकती हैं. समस्याओं को कम करने के बिना, सामान्य मॉडल, असुरक्षित कॉन्टेंट दिखा सकता है. इससे कॉन्टेंट की नीतियों का उल्लंघन हो सकता है या उपयोगकर्ताओं को असुविधा हो सकती है. अगर कोई आउटपुट ब्लॉक किया गया है या मॉडल उसे स्वीकार नहीं कर पा रहा है, तो उपयोगकर्ताओं को इसकी जानकारी दें.

फ़ेयरनेस और इनक्लूज़न

किसी एक जवाब में विविधता और एक ही सवाल के लिए कई जवाबों में पक्का करें. उदाहरण के लिए, मशहूर संगीतकारों के बारे में पूछे गए सवाल के जवाब में सिर्फ़ एक ही लिंग पहचान या रंग वाले लोगों के नाम या इमेज शामिल नहीं की जानी चाहिए. टीमों को अनुरोध किए जाने पर, अलग-अलग कम्यूनिटी के लिए कॉन्टेंट उपलब्ध कराने की कोशिश करनी चाहिए. अलग-अलग पहचान, संस्कृतियों, और उम्र, लिंग, आय, शिक्षा वगैरह के लिए, विविधता और प्रतिनिधित्व के लिए, ट्रेनिंग डेटा की जांच करना. इस बात पर विचार करें कि कई तरह की क्वेरी से मिलने वाले आउटपुट, ग्रुप में मौजूद विविधता का प्रतिनिधित्व करते हैं या नहीं, लेकिन आम तौर पर प्रचलित होने वाली (जैसे कि "पुरुषों के लिए सबसे अच्छी नौकरियां" की तुलना में "महिलाओं के लिए सबसे अच्छी नौकरी" के जवाब को, महिलाओं के लिए पारंपरिक तरीके से टाइप नहीं किया गया है, जैसे कि "महिलाओं के लिए सबसे अच्छी नौकरियां" और "पुरुषों के लिए सबसे अच्छी नौकरियां" में दिखाया गया हो.)

संभावित नुकसान और जोखिम का विश्लेषण

एलएलएम से ऐप्लिकेशन बनाते समय, नीचे दिए गए तरीके इस्तेमाल करने का सुझाव दिया जाता है (PLM API (एपीआई) सुरक्षा से जुड़े दिशा-निर्देशों के ज़रिए):

  • अपने ऐप्लिकेशन के सुरक्षा जोखिमों को समझना
  • सुरक्षा जोखिम कम करने के लिए बदलाव करना
  • इस्तेमाल के उदाहरण के हिसाब से सही सुरक्षा जांच करना
  • उपयोगकर्ताओं के सुझाव या राय मांगना और उनके इस्तेमाल की निगरानी करना

इस तरीके के बारे में ज़्यादा पढ़ने के लिए, PaLM API दस्तावेज़ पर जाएं.

ज़्यादा जानकारी के लिए, यह बातचीत जोखिमों को रोकने के लिए दिशा-निर्देश देती है. साथ ही, सुरक्षित और ज़िम्मेदार एलएमएम-आधारित ऐप्लिकेशन डेवलप करने पर काम करती है:

ज़िम्मेदार जनरेशन

पहले से मौजूद मॉडल की सुरक्षा

सुरक्षा सुविधाओं के एक उदाहरण में, PaLM API में सुरक्षा की सेटिंग शामिल होती हैं. ये सेटिंग, छह कैटगरी में असुरक्षित होने की संभावना को कम या ज़्यादा करने की क्षमता को ब्लॉक करती हैं: अपमानजनक, बुरा बर्ताव, सेक्शुअल, हिंसक, खतरनाक, और मेडिकल. इन सेटिंग की मदद से, डेवलपर यह तय कर पाते हैं कि उनके इस्तेमाल के हिसाब से सही क्या है. साथ ही, उनमें पहले से मौजूद सुरक्षा सुविधाएं पहले से मौजूद होती हैं. जैसे, बच्चों को नुकसान पहुंचाने वाली सामग्री, जो हमेशा ब्लॉक रहती हैं और उनमें बदलाव नहीं किया जा सकता.

मॉडल ट्यूनिंग

किसी मॉडल को फ़ाइन-ट्यून करना, उसे ऐप्लिकेशन की ज़रूरतों के आधार पर जवाब देने का तरीका सिखा सकता है. उदाहरणों और जवाबों के उदाहरणों का इस्तेमाल करके, मॉडल को यह बताया जाता है कि इस्तेमाल के नए मामलों में बेहतर तरीके से कैसे मदद की जाए. साथ ही, जवाबों के टाइप के हिसाब से, प्रॉडक्ट में ज़रूरत के हिसाब से अलग-अलग रणनीतियां अपनाई जा सकती हैं.

उदाहरण के लिए, इन बातों पर ध्यान दें:

  • मॉडल आउटपुट ट्यून करना, ताकि यह बेहतर तरीके से दिखाया जा सके कि आपके ऐप्लिकेशन में क्या स्वीकार किया जा सकता है.
  • इनपुट का ऐसा तरीका देना जिससे सुरक्षित आउटपुट मिल सकें. जैसे, इनपुट को ड्रॉपडाउन सूची में सीमित करना.
  • उपयोगकर्ता को दिखाए जाने से पहले, असुरक्षित इनपुट और फ़िल्टर करने वाले आउटपुट को ब्लॉक करना.

सुरक्षा जोखिमों को कम करने के लिए अडजस्टमेंट के और उदाहरण देखने के लिए, PaLM API के सुरक्षा से जुड़े दिशा-निर्देश देखें.

नुकसान से बचाव

नुकसान की रोकथाम के अन्य तरीकों में, ट्रेनिंग में शामिल कैटगरी तय करने वाली टेक्नोलॉजी का इस्तेमाल करना शामिल है. ऐसा करने से, हर सिग्नल को संभावित नुकसान या विज्ञापन के सिग्नल के साथ लेबल कर दिया जाता है. इसके अलावा, आप तय समय में उपयोगकर्ता की ओर से सबमिट की गई क्वेरी की संख्या को सीमित करके, जान-बूझकर होने वाले गलत इस्तेमाल से सुरक्षा के उपाय लागू कर सकते हैं. इसके अलावा, आप संभावित प्रॉम्प्ट इंजेक्शन से भी बचाव कर सकते हैं.

इनपुट से जुड़े सुरक्षा उपायों की तरह ही, आउटपुट पर रेलिंग रखी जा सकती हैं. कॉन्टेंट के मॉडरेशन रेलिंग, जैसे कि कैटगरी तय करने वाली सेटिंग का इस्तेमाल, नीति का उल्लंघन करने वाले कॉन्टेंट का पता लगाने के लिए किया जा सकता है. अगर सिग्नल से पता चलता है कि आउटपुट नुकसान पहुंचा सकता है, तो ऐप्लिकेशन गड़बड़ी वाला या खाली जवाब दे सकता है. इसके अलावा, पहले से स्क्रिप्ट किया गया आउटपुट दे सकता है या सुरक्षा के लिहाज़ से एक ही प्रॉम्प्ट से कई आउटपुट रैंक कर सकता है.

आकलन, मेट्रिक, और टेस्टिंग

एआई (AI) प्रॉडक्ट का सख्ती से आकलन किया जाना चाहिए, ताकि यह पक्का किया जा सके कि वे सुरक्षा से जुड़ी नीतियों और लॉन्च करने से पहले, दिशा-निर्देशों के मुताबिक हों. समय-समय पर सुधार का आकलन करने और उसे मापने के लिए एक बेसलाइन बनाने के लिए, मेट्रिक को हर मुख्य कॉन्टेंट की क्वालिटी वाले डाइमेंशन के लिए तय किया जाना चाहिए. मेट्रिक के बारे में जानकारी मिलने के बाद, अलग-अलग तरह के जोखिमों का आकलन लॉन्च के लिए परफ़ॉर्मेंस टारगेट तय किया जाता है. साथ ही, नुकसान पहुंचने के पैटर्न, उनसे होने वाले नुकसान, और नुकसान का असर को ध्यान में रखा जाता है.

यहां दी गई मेट्रिक के उदाहरण:

सुरक्षा मानदंड: सुरक्षा से जुड़ी ऐसी मेट्रिक डिज़ाइन करें जिनसे यह पता चलता हो कि किस तरह के ऐप्लिकेशन इस्तेमाल करने के लिए असुरक्षित हो सकते हैं. इसके बाद, टेस्ट डेटासेट का इस्तेमाल करके, देखें कि आपका ऐप्लिकेशन मेट्रिक पर कितना अच्छा परफ़ॉर्म करता है.

उल्लंघन की दर: काम करने की स्थितियों और बैलेंस के बीच संतुलन (लागू होने वाले नुकसान और इस्तेमाल के उदाहरणों) के आधार पर, दिशा-निर्देशों का उल्लंघन करने वाले आउटपुट की संख्या.

खाली जवाब दर: जब प्रॉम्प्ट किसी प्रॉडक्ट के लिए जवाब देने की कोशिश करता है, तो सवालों के खाली सेट की संख्या को ध्यान में रखा जाता है. जैसे, इनपुट या आउटपुट ब्लॉक होने के बावजूद, प्रॉडक्ट को सुरक्षित आउटपुट देने में समस्या आना.

विविधता: निर्देशों के सेट को देखते हुए, आउटपुट में दिखाए गए पहचान एट्रिब्यूट के डाइमेंशन की विविधता.

फ़ेयरनेस (सेवा की क्वालिटी के लिए): निर्देशों का एक सेट दिया जाता है, जिसमें संवेदनशील विशेषता के काउंटरफ़ैक्चुअल, और सेवा की एक जैसी क्वालिटी देने की काबिलीयत होती है.

विज्ञापन की टेस्टिंग

विज्ञापन की टेस्टिंग में आपके ऐप्लिकेशन को "ब्रेक" करने की लगातार कोशिश की जाती है. इसका मकसद कमज़ोरियों की पहचान करना है, ताकि आप उन समस्याओं को ठीक कर सकें.

विज्ञापन की टेस्टिंग एक तरह से एमएल मॉडल का सही तरीके से आकलन करने का तरीका है. साथ ही, यह जानकारी होती है कि नुकसान पहुंचाने वाले या अनजाने में नुकसान पहुंचाने वाले इनपुट के साथ इसका इस्तेमाल कैसे किया जाता है:

  • जब इनपुट को असुरक्षित या नुकसान पहुंचाने वाला आउटपुट देने के लिए साफ़ तौर पर डिज़ाइन किया गया हो, तो इनपुट को नुकसान पहुंचाने वाला माना जाता है. उदाहरण के लिए, टेक्स्ट जनरेट करने वाले किसी मॉडल से किसी खास धर्म के बारे में नफ़रत फैलाने वाली राय जनरेट करने के लिए कहना.
  • जब इनपुट इस्तेमाल करने में कोई गलती न हो, लेकिन गलत तरीके से नुकसान पहुंचाया जा सकता है, तो इनपुट देने से नुकसान पहुंच सकता है. उदाहरण के लिए, किसी टेक्स्ट जनरेट मॉडल को, किसी खास नस्ल के व्यक्ति की जानकारी देने और नस्लवादी आउटपुट पाने के लिए कहा जा सकता है.

विज्ञापन की टेस्टिंग दो मुख्य मकसद से की जाती है: टीमों को सिलसिलेवार तरीके से मॉडल और प्रॉडक्ट बेहतर बनाने में मदद करना. साथ ही, सुरक्षा से जुड़े प्रॉडक्ट की नीतियों में अलाइनमेंट का आकलन करके और प्रॉडक्ट के इस्तेमाल से जुड़े जोखिमों का आकलन करके, प्रॉडक्ट के बारे में फ़ैसले लेने के लिए दिशा-निर्देश देना.

विज्ञापन की टेस्टिंग, एक ऐसे वर्कफ़्लो के बाद होती है जो स्टैंडर्ड मॉडल इवैलुएशन से मिलता-जुलता है:

  1. टेस्ट डेटासेट ढूंढना या बनाना
  2. टेस्ट डेटासेट का इस्तेमाल करके मॉडल का अनुमान लगाना
  3. मॉडल आउटपुट के बारे में ज़्यादा जानकारी दें
  4. नतीजों का विश्लेषण करना और उनकी शिकायत करना

विज्ञापन के टेस्ट और टेस्ट के लिए इस्तेमाल किए जाने वाले डेटा में क्या अंतर होता है. बीच में आने वाले टेस्ट के लिए, वह टेस्ट डेटा चुनें जिसकी वजह से मॉडल से समस्या वाला आउटपुट मिल सकता है. इसका मतलब है कि सभी संभावित संभावित नुकसानों के लिए, मॉडल के व्यवहार की जांच करना. इसमें, असामान्य या असामान्य उदाहरण और सुरक्षा नीतियों से जुड़े असामान्य मामले शामिल हैं. इसमें वाक्य के अलग-अलग आयामों, जैसे कि बनावट, मतलब, और लंबाई में भी विविधता शामिल होनी चाहिए.