निष्पक्षता: भेदभाव को कम करना

ट्रेनिंग डेटा में पक्षपात का सोर्स पहचाने जाने के बाद, हम इसके असर को कम करने के लिए ज़रूरी कदम उठा सकते हैं. मशीन लर्निंग (एमएल) के इंजीनियर, आम तौर पर पक्षपात को ठीक करने के लिए दो मुख्य रणनीतियों का इस्तेमाल करते हैं:

  • ट्रेनिंग डेटा बढ़ाना.
  • मॉडल के लॉस फ़ंक्शन में बदलाव करना.

ट्रेनिंग डेटा बढ़ाना

अगर ट्रेनिंग डेटा के ऑडिट में गायब, गलत या खराब डेटा की समस्याओं का पता चलता है, तो समस्या को हल करने का सबसे आसान तरीका है अतिरिक्त डेटा इकट्ठा करना.

हालांकि, ट्रेनिंग डेटा को बढ़ाना एक अच्छा तरीका हो सकता है, लेकिन इसकी एक समस्या यह है कि यह काम कभी-कभी संभव नहीं हो पाता. ऐसा, उपलब्ध डेटा की कमी या डेटा इकट्ठा करने में आने वाली संसाधन से जुड़ी समस्याओं की वजह से हो सकता है. उदाहरण के लिए, ज़्यादा डेटा इकट्ठा करना बहुत महंगा या समय लेने वाला हो सकता है. इसके अलावा, कानूनी/निजता से जुड़ी पाबंदियों की वजह से, ऐसा करना मुमकिन नहीं हो सकता.

मॉडल के ऑप्टिमाइज़ेशन फ़ंक्शन में बदलाव करना

जिन मामलों में ट्रेनिंग के लिए ज़्यादा डेटा इकट्ठा करना मुमकिन नहीं है वहां मॉडल को ट्रेनिंग देते समय, लॉस का हिसाब लगाने के तरीके में बदलाव करके भी बायस को कम किया जा सकता है. आम तौर पर, हम लॉग लॉस जैसे ऑप्टिमाइज़ेशन फ़ंक्शन का इस्तेमाल करके, गलत मॉडल के अनुमान पर असर डालते हैं. हालांकि, लॉग लॉस, सबग्रुप की सदस्यता को ध्यान में नहीं रखता है. इसलिए, लॉग लॉस का इस्तेमाल करने के बजाय, हम एक ऐसे ऑप्टिमाइज़ेशन फ़ंक्शन को चुन सकते हैं जिसे निष्पक्षता की जानकारी देने वाले तरीके से गड़बड़ियों पर रोक लगाने के लिए डिज़ाइन किया गया हो. यह फ़ंक्शन, ट्रेनिंग डेटा में मिली गड़बड़ियों को ठीक करने के लिए डिज़ाइन किया गया है.

TensorFlow मॉडल रेमेडिएशन लाइब्रेरी से, मॉडल ट्रेनिंग के दौरान भेदभाव को कम करने की दो अलग-अलग तकनीकों का इस्तेमाल करने में मदद मिलती है:

  • MinDiff: MinDiff का मकसद, डेटा के दो अलग-अलग स्लाइस (लड़के/लड़कियों के मुकाबले नॉन-बाइनरी छात्र-छात्राओं) के लिए गड़बड़ियों को संतुलित करना है. इसके लिए, दोनों ग्रुप के लिए, अनुमान के डिस्ट्रिब्यूशन में अंतर के लिए जुर्माना जोड़ा जाता है.

  • काउंटरफ़ैक्चुअल लॉगिट पेयरिंग: काउंटरफ़ैक्चुअल लॉगिट पेयरिंग (सीएलपी) का मकसद यह पक्का करना है कि दिए गए उदाहरण के संवेदनशील एट्रिब्यूट को बदलने से, उस उदाहरण के लिए मॉडल का अनुमान न बदले. उदाहरण के लिए, अगर किसी ट्रेनिंग डेटासेट में दो ऐसे उदाहरण हैं जिनकी फ़ीचर वैल्यू एक जैसी हैं, लेकिन एक में gender की वैल्यू male है और दूसरे में gender की वैल्यू nonbinary है, तो अगर इन दोनों उदाहरणों के लिए किए गए अनुमान अलग-अलग हैं, तो सीएलपी एक जुर्माना जोड़ देगा.

ऑप्टिमाइज़ेशन फ़ंक्शन में बदलाव करने के लिए चुनी गई तकनीकें, मॉडल के इस्तेमाल के उदाहरणों पर निर्भर करती हैं. अगले सेक्शन में, हम इन इस्तेमाल के उदाहरणों को ध्यान में रखते हुए, यह जानेंगे कि किसी मॉडल का आकलन कैसे किया जाए, ताकि वह सभी के लिए सही हो.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

पक्षपात को कम करने की तकनीकों के बारे में, इनमें से कौनसी बातें सही हैं?
ट्रेनिंग डेटासेट में ज़्यादा उदाहरण जोड़ने से, मॉडल के अनुमान में मौजूद पूर्वाग्रह को कम करने में हमेशा मदद मिलेगी.
अगर ट्रेनिंग डेटा को ज़्यादा जोड़कर, पूर्वाग्रह को कम किया जा रहा है, तो आपको ट्रेनिंग के दौरान MinDiff या CLP भी लागू नहीं करना चाहिए.
MinDiff और CLP, दोनों ही संवेदनशील विशेषताओं से जुड़े मॉडल की परफ़ॉर्मेंस में होने वाले अंतर को कम करते हैं
MinDiff, डेटा के अलग-अलग स्लाइस के लिए, अनुमानों के पूरे डिस्ट्रिब्यूशन में आने वाले अंतर को कम करता है. जबकि CLP, उदाहरणों के अलग-अलग पेयर के लिए अनुमान के अंतर को कम करता है.