ट्रेनिंग डेटा में पक्षपात का सोर्स पहचाने जाने के बाद, हम इसके असर को कम करने के लिए ज़रूरी कदम उठा सकते हैं. मशीन लर्निंग (एमएल) के इंजीनियर, आम तौर पर पक्षपात को ठीक करने के लिए दो मुख्य रणनीतियों का इस्तेमाल करते हैं:
- ट्रेनिंग डेटा बढ़ाना.
- मॉडल के लॉस फ़ंक्शन में बदलाव करना.
ट्रेनिंग डेटा बढ़ाना
अगर ट्रेनिंग डेटा के ऑडिट में गायब, गलत या खराब डेटा की समस्याओं का पता चलता है, तो समस्या को हल करने का सबसे आसान तरीका है अतिरिक्त डेटा इकट्ठा करना.
हालांकि, ट्रेनिंग डेटा को बढ़ाना एक अच्छा तरीका हो सकता है, लेकिन इसकी एक समस्या यह है कि यह काम कभी-कभी संभव नहीं हो पाता. ऐसा, उपलब्ध डेटा की कमी या डेटा इकट्ठा करने में आने वाली संसाधन से जुड़ी समस्याओं की वजह से हो सकता है. उदाहरण के लिए, ज़्यादा डेटा इकट्ठा करना बहुत महंगा या समय लेने वाला हो सकता है. इसके अलावा, कानूनी/निजता से जुड़ी पाबंदियों की वजह से, ऐसा करना मुमकिन नहीं हो सकता.
मॉडल के ऑप्टिमाइज़ेशन फ़ंक्शन में बदलाव करना
जिन मामलों में ट्रेनिंग के लिए ज़्यादा डेटा इकट्ठा करना मुमकिन नहीं है वहां मॉडल को ट्रेनिंग देते समय, लॉस का हिसाब लगाने के तरीके में बदलाव करके भी बायस को कम किया जा सकता है. आम तौर पर, हम लॉग लॉस जैसे ऑप्टिमाइज़ेशन फ़ंक्शन का इस्तेमाल करके, गलत मॉडल के अनुमान पर असर डालते हैं. हालांकि, लॉग लॉस, सबग्रुप की सदस्यता को ध्यान में नहीं रखता है. इसलिए, लॉग लॉस का इस्तेमाल करने के बजाय, हम एक ऐसे ऑप्टिमाइज़ेशन फ़ंक्शन को चुन सकते हैं जिसे निष्पक्षता की जानकारी देने वाले तरीके से गड़बड़ियों पर रोक लगाने के लिए डिज़ाइन किया गया हो. यह फ़ंक्शन, ट्रेनिंग डेटा में मिली गड़बड़ियों को ठीक करने के लिए डिज़ाइन किया गया है.
TensorFlow मॉडल रेमेडिएशन लाइब्रेरी से, मॉडल ट्रेनिंग के दौरान भेदभाव को कम करने की दो अलग-अलग तकनीकों का इस्तेमाल करने में मदद मिलती है:
MinDiff: MinDiff का मकसद, डेटा के दो अलग-अलग स्लाइस (लड़के/लड़कियों के मुकाबले नॉन-बाइनरी छात्र-छात्राओं) के लिए गड़बड़ियों को संतुलित करना है. इसके लिए, दोनों ग्रुप के लिए, अनुमान के डिस्ट्रिब्यूशन में अंतर के लिए जुर्माना जोड़ा जाता है.
काउंटरफ़ैक्चुअल लॉगिट पेयरिंग: काउंटरफ़ैक्चुअल लॉगिट पेयरिंग (सीएलपी) का मकसद यह पक्का करना है कि दिए गए उदाहरण के संवेदनशील एट्रिब्यूट को बदलने से, उस उदाहरण के लिए मॉडल का अनुमान न बदले. उदाहरण के लिए, अगर किसी ट्रेनिंग डेटासेट में दो ऐसे उदाहरण हैं जिनकी फ़ीचर वैल्यू एक जैसी हैं, लेकिन एक में
gender
की वैल्यूmale
है और दूसरे मेंgender
की वैल्यूnonbinary
है, तो अगर इन दोनों उदाहरणों के लिए किए गए अनुमान अलग-अलग हैं, तो सीएलपी एक जुर्माना जोड़ देगा.
ऑप्टिमाइज़ेशन फ़ंक्शन में बदलाव करने के लिए चुनी गई तकनीकें, मॉडल के इस्तेमाल के उदाहरणों पर निर्भर करती हैं. अगले सेक्शन में, हम इन इस्तेमाल के उदाहरणों को ध्यान में रखते हुए, यह जानेंगे कि किसी मॉडल का आकलन कैसे किया जाए, ताकि वह सभी के लिए सही हो.