निष्पक्षता: भेदभाव को कम करना

किसी समय पक्षपात की वजह का पता ट्रेनिंग डेटा में मौजूद है, इसलिए हम इन मामलों में ज़रूरी कदम उठा सकते हैं कम करने के लिए कहा जा सकता है. मशीन लर्निंग (एमएल) की दो मुख्य रणनीतियां हैं आम तौर पर, इंजीनियर पूर्वाग्रह को दूर करने के लिए काम करते हैं:

  • ट्रेनिंग डेटा को बेहतर बनाना.
  • मॉडल के लॉस फ़ंक्शन को अडजस्ट करना.

ट्रेनिंग डेटा को बेहतर बनाना

अगर ट्रेनिंग डेटा के ऑडिट में कुछ ऐसी समस्याएं मिली हैं जो मौजूद नहीं हैं, गलत हैं, अगर डेटा में कोई बदलाव होता है, तो समस्या को हल करने का सबसे आसान तरीका है का इस्तेमाल करें.

हालांकि, ट्रेनिंग डेटा को बेहतर बनाना एक अच्छा विकल्प भी हो सकता है, लेकिन इसका एक नकारात्मक पहलू यह है कि इस तरीके से यह संभव नहीं है, क्योंकि उपलब्ध डेटा या संसाधन की कमी की वजह से डेटा इकट्ठा करने में मुश्किल होती है. उदाहरण के लिए, ज़्यादा डेटा इकट्ठा करना बहुत महंगा या ज़्यादा समय लेने वाला हो सकता है. इसके अलावा, कानूनी/निजता से जुड़ी पाबंदियां लगाई गई हैं.

मॉडल के ऑप्टिमाइज़ेशन फ़ंक्शन को अडजस्ट करना

ऐसे मामलों में जहां अतिरिक्त ट्रेनिंग डेटा इकट्ठा करना संभव नहीं होता, उनमें अन्य पक्षपात को कम करने का तरीका यह है कि मॉडल के दौरान नुकसान का हिसाब लगाने के तरीके में बदलाव किया जाए ट्रेनिंग ली हुई है. हम आम तौर पर एक ऑप्टिमाइज़ेशन फ़ंक्शन का इस्तेमाल करते हैं, जैसे कि गलत मॉडल को दंड देने के लिए, लॉग लॉस सुझाव. हालांकि, लॉग लॉस, सबग्रुप की सदस्यता को विचार. इसलिए, लॉग लॉस का इस्तेमाल करने के बजाय, हम कोई ऑप्टिमाइज़ेशन चुन सकते हैं इस प्रोग्राम को, निष्पक्षता की जानकारी देने वाले इस तरह के कॉन्टेंट में गड़बड़ियों पर जुर्माना लगाने के लिए डिज़ाइन किया गया है. उन असंतुलन को रोकने के लिए काम करता है जिनकी पहचान हमने अपने ट्रेनिंग डेटा में की है.

TensorFlow के मॉडल की रेमेडिएशन लाइब्रेरी में, दो काम करने के लिए सुविधाएं उपलब्ध हैं मॉडल ट्रेनिंग के दौरान, पक्षपात को कम करने की अलग-अलग तकनीकें:

  • MinDiff: MinDiff का मकसद डेटा के दो अलग-अलग हिस्सों की गड़बड़ियों को संतुलित करना है (पुरुष/महिला छात्र बनाम गैर-बाइनरी छात्र) अनुमान के डिस्ट्रिब्यूशन में अंतर दिखाता है.

  • काउंटरफ़ैक्चुअल लॉजिट पेयरिंग: काउंटरफ़ैक्चुअल लॉजिट पेयरिंग (सीएलपी) का मकसद यह पक्का करना है कि दिए गए उदाहरण की विशेषता, उसके लिए मॉडल के अनुमान को नहीं बदलती उदाहरण के लिए. उदाहरण के लिए, अगर किसी ट्रेनिंग डेटासेट में ऐसे दो उदाहरण हैं जिनके लिए सुविधा के मान एक जैसे हैं. बस एक सुविधा का मान gender है. इसके लिए male और दूसरे की gender की वैल्यू nonbinary है. अगर CLP की वैल्यू gender है, तो इन दोनों उदाहरणों के लिए, अलग-अलग अनुमान हैं.

ऑप्टिमाइज़ेशन फ़ंक्शन को अडजस्ट करने के लिए, ये तकनीकें चुनी जाती हैं यह मॉडल के इस्तेमाल के उदाहरण पर निर्भर करता है. अगले सेक्शन में, हम इस बारे में बारीकी से जानना कि निष्पक्षता के लिए मॉडल का आकलन करने के काम को कैसे पूरा किया जाए वे इन तरीकों का इस्तेमाल कर सकें.

व्यायाम: अपनी समझ की जांच करें

पक्षपात कम करने की तकनीकों के बारे में इनमें से कौनसी बातें सही हैं?
MinDiff और CLP, दोनों ही मॉडल की परफ़ॉर्मेंस में आने वाले अंतर को कम करते हैं संवेदनशील विशेषताओं से जुड़े
दोनों तकनीकों का मकसद, सुझावों को कम करना है और भेदभाव को कम करना है संवेदनशील विशेषताओं की वैल्यू के असंतुलन की वजह से होने वाली गड़बड़ियां ट्रेनिंग डेटा में दिखाया गया है.
MinDiff, पूरे रेवेन्यू में होने वाले अंतर को कम करता है डेटा के अलग-अलग स्लाइस के लिए अनुमान लगाता है, जबकि CLP दंड देता है और उदाहरण के तौर पर, अलग-अलग जोड़ी के लिए अनुमानों में अंतर हो.
MinDiff ने दो के लिए स्कोर डिस्ट्रिब्यूशन को अलाइन करके, पूर्वाग्रह की समस्या दूर की सबग्रुप. CLP इस बात का ध्यान रखता है कि वह पक्षपात को कम कर दे. ऐसा करके, यह पक्का किया जाता है कि अलग तरह से नहीं माना जाता, क्योंकि उनके सबग्रुप की सदस्यता अलग होती है.
ट्रेनिंग वाले डेटासेट में ज़्यादा उदाहरण जोड़ने से हमेशा मदद मिलेगी का सामना करने के लिए.
ट्रेनिंग के ज़्यादा उदाहरण जोड़ना, पक्षपात को कम करना, लेकिन नए ट्रेनिंग डेटा को तैयार करना मायने रखता है. अगर ट्रेनिंग के अतिरिक्त उदाहरणों में असंतुलन को पहचानना मुश्किल हो सकता है. और पक्षपात को कम कर सकते हैं.
अगर ट्रेनिंग का ज़्यादा डेटा जोड़कर, पूर्वाग्रह को कम किया जा रहा है, तो ट्रेनिंग के दौरान MinDiff या CLP लागू नहीं करना चाहिए.
ट्रेनिंग के डेटा को बेहतर बनाना और MinDiff या CLP जैसी तकनीकों को लागू करना दूसरों की तुलना में ज़्यादा मददगार हो सकता है. उदाहरण के लिए, एक एमएल इंजीनियर ताकि अंतर को कम करने के लिए, ज़रूरत के मुताबिक अतिरिक्त ट्रेनिंग डेटा इकट्ठा किया जा सके 30% की बढ़ोतरी दर्ज की और फिर MinDiff का इस्तेमाल करके और 50% तक का अंतर.