किसी समय पक्षपात की वजह का पता ट्रेनिंग डेटा में मौजूद है, इसलिए हम इन मामलों में ज़रूरी कदम उठा सकते हैं कम करने के लिए कहा जा सकता है. मशीन लर्निंग (एमएल) की दो मुख्य रणनीतियां हैं आम तौर पर, इंजीनियर पूर्वाग्रह को दूर करने के लिए काम करते हैं:
- ट्रेनिंग डेटा को बेहतर बनाना.
- मॉडल के लॉस फ़ंक्शन को अडजस्ट करना.
ट्रेनिंग डेटा को बेहतर बनाना
अगर ट्रेनिंग डेटा के ऑडिट में कुछ ऐसी समस्याएं मिली हैं जो मौजूद नहीं हैं, गलत हैं, अगर डेटा में कोई बदलाव होता है, तो समस्या को हल करने का सबसे आसान तरीका है का इस्तेमाल करें.
हालांकि, ट्रेनिंग डेटा को बेहतर बनाना एक अच्छा विकल्प भी हो सकता है, लेकिन इसका एक नकारात्मक पहलू यह है कि इस तरीके से यह संभव नहीं है, क्योंकि उपलब्ध डेटा या संसाधन की कमी की वजह से डेटा इकट्ठा करने में मुश्किल होती है. उदाहरण के लिए, ज़्यादा डेटा इकट्ठा करना बहुत महंगा या ज़्यादा समय लेने वाला हो सकता है. इसके अलावा, कानूनी/निजता से जुड़ी पाबंदियां लगाई गई हैं.
मॉडल के ऑप्टिमाइज़ेशन फ़ंक्शन को अडजस्ट करना
ऐसे मामलों में जहां अतिरिक्त ट्रेनिंग डेटा इकट्ठा करना संभव नहीं होता, उनमें अन्य पक्षपात को कम करने का तरीका यह है कि मॉडल के दौरान नुकसान का हिसाब लगाने के तरीके में बदलाव किया जाए ट्रेनिंग ली हुई है. हम आम तौर पर एक ऑप्टिमाइज़ेशन फ़ंक्शन का इस्तेमाल करते हैं, जैसे कि गलत मॉडल को दंड देने के लिए, लॉग लॉस सुझाव. हालांकि, लॉग लॉस, सबग्रुप की सदस्यता को विचार. इसलिए, लॉग लॉस का इस्तेमाल करने के बजाय, हम कोई ऑप्टिमाइज़ेशन चुन सकते हैं इस प्रोग्राम को, निष्पक्षता की जानकारी देने वाले इस तरह के कॉन्टेंट में गड़बड़ियों पर जुर्माना लगाने के लिए डिज़ाइन किया गया है. उन असंतुलन को रोकने के लिए काम करता है जिनकी पहचान हमने अपने ट्रेनिंग डेटा में की है.
TensorFlow के मॉडल की रेमेडिएशन लाइब्रेरी में, दो काम करने के लिए सुविधाएं उपलब्ध हैं मॉडल ट्रेनिंग के दौरान, पक्षपात को कम करने की अलग-अलग तकनीकें:
MinDiff: MinDiff का मकसद डेटा के दो अलग-अलग हिस्सों की गड़बड़ियों को संतुलित करना है (पुरुष/महिला छात्र बनाम गैर-बाइनरी छात्र) अनुमान के डिस्ट्रिब्यूशन में अंतर दिखाता है.
काउंटरफ़ैक्चुअल लॉजिट पेयरिंग: काउंटरफ़ैक्चुअल लॉजिट पेयरिंग (सीएलपी) का मकसद यह पक्का करना है कि दिए गए उदाहरण की विशेषता, उसके लिए मॉडल के अनुमान को नहीं बदलती उदाहरण के लिए. उदाहरण के लिए, अगर किसी ट्रेनिंग डेटासेट में ऐसे दो उदाहरण हैं जिनके लिए सुविधा के मान एक जैसे हैं. बस एक सुविधा का मान
gender
है. इसके लिएmale
और दूसरे कीgender
की वैल्यूnonbinary
है. अगर CLP की वैल्यूgender
है, तो इन दोनों उदाहरणों के लिए, अलग-अलग अनुमान हैं.
ऑप्टिमाइज़ेशन फ़ंक्शन को अडजस्ट करने के लिए, ये तकनीकें चुनी जाती हैं यह मॉडल के इस्तेमाल के उदाहरण पर निर्भर करता है. अगले सेक्शन में, हम इस बारे में बारीकी से जानना कि निष्पक्षता के लिए मॉडल का आकलन करने के काम को कैसे पूरा किया जाए वे इन तरीकों का इस्तेमाल कर सकें.