निष्पक्षता: काउंटरफ़ैक्चुअल फ़ेयरनेस

इस तरह, निष्पक्षता मेट्रिक के बारे में की गई चर्चा में यह माना गया है कि हमारी ट्रेनिंग और परीक्षण के उदाहरणों में सबग्रुप का आकलन किया जा रहा है. हालांकि, अक्सर ऐसा नहीं होता.

मान लीजिए कि एडमिशन के हमारे डेटासेट में डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) का पूरा डेटा शामिल नहीं है. इसके बजाय, डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) के हिसाब से बनाए गए ग्रुप की सदस्यता, सिर्फ़ एक छोटे से हिस्से के लिए रिकॉर्ड की जाती है उदाहरण के लिए, वे छात्र-छात्राएं जिन्होंने खुद की पहचान करने का विकल्प चुना है संबंधित थे. इस मामले में, हमारे कैंडिडेट पूल का डेटा, शर्तों के हिसाब से तय होता है और अस्वीकार किए गए छात्र-छात्राएं अब ऐसे दिखेंगे:

कुल 100 छात्र-छात्राओं वाला प्लान, जो दो ग्रुप में बंटा होता है:
      अस्वीकार किए गए उम्मीदवार (80 छात्र-छात्राओं वाले आइकॉन) और 20 उम्मीदवार जिन्हें मंज़ूरी मिल चुकी है
      छात्र/छात्रा के आइकॉन). सभी आइकन धूसर किए गए हैं (यह दर्शाते हैं कि उनका
      डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) ग्रुप के बारे में जानकारी नहीं है), सिर्फ़ छह आइकॉन को छोड़कर. नामंजूर में
      ग्रुप में, दो छात्र-छात्राओं के आइकॉन नीले रंग के और दो छात्र-छात्राओं के आइकॉन शेड किए गए हैं
      नारंगी. स्वीकार किए गए ग्रुप में, एक छात्र/छात्रा का आइकॉन नीले रंग का है और दूसरे का आइकॉन
      गहरे नारंगी रंग.
पांचवीं इमेज. डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) ग्रुप की सदस्यता वाला उम्मीदवार पूल कोई जानकारी नहीं है, लेकिन करीब-करीब सभी लोगों के बारे में जानकारी नहीं है (आइकॉन धूसर रंग में शेड किया गया है).

किसी भी डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) के लिए मॉडल का अनुमान लगाना संभव नहीं है अवसर की समानता या समानता, क्योंकि हमारे पास डेमोग्राफ़िक डेटा नहीं है हमारे 94% उदाहरणों में बताया है. हालांकि, ऐसे 6% उदाहरणों में डेमोग्राफ़िक फ़ीचर, हम अब भी अलग-अलग अनुमानों के जोड़े की तुलना कर सकते हैं (ज़्यादातर उम्मीदवार बनाम अल्पसंख्यक उम्मीदवार) और देखें कि क्या वे मॉडल द्वारा समान रूप से व्यवहार में लाया जाता है.

उदाहरण के लिए, मान लें कि हमने सुविधा के डेटा की अच्छी तरह दो उम्मीदवारों के लिए उपलब्ध (एक बहुमत समूह और दूसरा अल्पसंख्यक समूह में) ने नीचे दी गई चित्र में स्टार के साथ एनोटेट किया है) और पाया है कि सभी मामलों में प्रवेश के लिए पूरी तरह से एक जैसा है. अगर मॉडल इन दोनों उम्मीदवारों के लिए एक जैसा सुझाव मिलता है (यानी, दोनों में से किसी एक को अस्वीकार कर दिया जाता है) या दोनों उम्मीदवारों को स्वीकार करता है, तो ऐसा कहा जाता है कि यह कानूनी विरोध निष्पक्षता का इस्तेमाल करें. काउंटरफ़ैक्चुअल फ़ेयरनेस के मुताबिक, दो ऐसे उदाहरण जो किसी संवेदनशील एट्रिब्यूट को छोड़कर, हर तरह से एक जैसे हों (यहां, डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) ग्रुप की सदस्यता) है, तो नतीजे उसी मॉडल में होने चाहिए सुझाव.

पिछली इमेज में दिखाया गया उम्मीदवार पूल (पूल के बीच) जैसा ही हो, इसमें शामिल नहीं है
      इस वर्शन में, छात्र-छात्राओं के लिए एक नीले रंग का आइकॉन (जो ज़्यादातर ग्रुप से जुड़ा हुआ है) और
      अनुरोध अस्वीकार किए जाने की सूची में नारंगी रंग का एक छात्र/छात्रा का आइकॉन (जो अल्पसंख्यक समूह से जुड़ा है)
      ग्रुप की व्याख्या के ऊपर एक स्टार दिख रहा है. इससे पता चलता है कि ये दोनों उम्मीदवार
      एक जैसा (डेमोग्राफ़िक ग्रुप के अलावा).
छठी इमेज. काउंटरफ़ैक्चुअल फ़ेयरनेस दो एक जैसी चीज़ों के लिए संतुष्ट है उदाहरण (जो सिर्फ़ डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) ग्रुप की सदस्यता में अलग-अलग हो सकते हैं) स्टार होता है, क्योंकि मॉडल दोनों के लिए समान निर्णय लेता है (अस्वीकार किया गया).

फ़ायदे और कमियां

जैसा कि पहले बताया गया है, काउंटरफ़ैक्चुअल फ़ेयरनेस का एक बड़ा फ़ायदा यह है कि यह का उपयोग निष्पक्षता के लिए अनुमानों का मूल्यांकन करने के लिए किया जा सकता है. अन्य मीट्रिक संभव नहीं होंगे. अगर किसी डेटासेट में संबंधित ग्रुप एट्रिब्यूट की सुविधा की वैल्यू पर विचार किया जा रहा है. की डेमोग्राफ़िक समानता या समानता का इस्तेमाल करके, निष्पक्षता का आकलन किया जा सकता है अवसर. हालांकि, अगर ये ग्रुप एट्रिब्यूट किसी सबसेट के लिए उपलब्ध हैं उदाहरण के लिए, और ऐसा हो सकता है कि एक जैसी के उदाहरण हैं, तो पेशेवर लोग कानूनी विरोध की निष्पक्षता का इस्तेमाल कर सकते हैं का इस्तेमाल एक मेट्रिक के तौर पर किया जा सकता है.

इसके अतिरिक्त, क्योंकि डेमोग्राफ़िक समानता और समानता जैसी मीट्रिक अवसर का आकलन करने वाले ग्रुप की मदद से, वे पूर्वाग्रह की समस्याओं को छिपा सकते हैं जो मॉडल की मदद से, लोगों के लिए अनुमान लगाना आसान हो जाता है. काउंटरफ़ैक्चुअल फ़ेयरनेस का इस्तेमाल करके मूल्यांकन कर सकते हैं. उदाहरण के लिए, मान लें कि हमारे एडमिशन मॉडल, बहुमत समूह और अल्पसंख्यकों के योग्य उम्मीदवारों को स्वीकार करता है समूह में रखा गया है, लेकिन सबसे योग्य अल्पसंख्यक उम्मीदवार है अस्वीकार कर दिया गया, जबकि सबसे अच्छा उम्मीदवार माना जाता है जो बिलकुल वही है क्रेडेंशियल स्वीकार किए जाते हैं. तथ्यों पर आधारित निष्पक्षता के विश्लेषण से, ताकि उन्हें ठीक किया जा सके.

दूसरी तरफ़, पक्षपातपूर्ण निष्पक्षता का सबसे अहम पहलू यह है कि इसमें इससे मॉडल के अनुमानों में पक्षपात को पूरी तरह से देखा जा सकता है. पहचान करना और उदाहरण के जोड़े में कुछ असमानताओं को हटाना काफ़ी नहीं हो सकता सभी ग्रुप पर असर डालने वाली, सिस्टमिक पूर्वाग्रह की समस्याओं को हल करने के लिए इसका इस्तेमाल किया जा सकता है.

जहां संभव हो, ऐसे मामलों में कारोबारी, एग्रीगेट करके निष्पक्षता का विश्लेषण (डेमोग्राफ़िक समानता या समानता जैसी मेट्रिक का इस्तेमाल करके का इस्तेमाल करने का मौका मिलेगा. साथ ही, तथ्यों पर आधारित निष्पक्षता का विश्लेषण भी किया जा सकेगा. संभावित पक्षपातपूर्ण समस्याओं को दूर करने की ज़रूरत है.

व्यायाम: अपनी समझ की जांच करें

कसरत वाली इमेज. सर्कल के दो ग्रुप: नेगेटिव
             अनुमान और पॉज़िटिव अनुमान.
             नकारात्मक पूर्वानुमान में 50 वृत्त होते हैं:
             स्लेटी रंग के 39 सर्कल, नीले रंग के आठ सर्कल, और नारंगी रंग के तीन गोल घेरे. एक
             नीले रंग के गोले का लेबल 'A' है और एक नारंगी वृत्त पर 'A' लेबल है,
             और एक नीले रंग के गोले पर 'C' का लेबल लगा है. 
             सकारात्मक पूर्वानुमान में 15 वृत्त होते हैं:
             10 स्लेटी रंग के गोले, 3 नीले रंग के गोले, और 2
             नारंगी रंग के गोले. एक नीले रंग के गोले पर 'B' और एक नारंगी रंग का लेबल लगा है
             वृत्त पर 'B' और एक नीले वृत्त पर 'C' का लेबल है.
             डायग्राम के नीचे एक लेजेंड है कि नीले रंग के सर्कल से पता चलता है कि
             ज़्यादातर समूह में उदाहरण के तौर पर, नारंगी रंग के सर्कल से
             अल्पसंख्यक समूह में एक उदाहरण है और स्लेटी रंग के गोले
             ऐसे उदाहरण जिनकी ग्रुप सदस्यता की जानकारी नहीं है
सातवीं इमेज. उदाहरणों के बैच के लिए नेगेटिव और पॉज़िटिव अनुमान, जिसमें उदाहरणों के तीन जोड़े A, B, और C लेबल हैं.

ऊपर चित्र 7 में पूर्वानुमानों के सेट में, उनमें से समान के ये जोड़े (समूह सदस्यता को छोड़कर) क्या ऐसे सुझाव मिले हैं जो तथ्यों पर आधारित निष्पक्षता का उल्लंघन करते हैं?

पेयर A
पेयर A के अनुमान और तथ्यों पर आधारित निष्पक्षता की पुष्टि करते हैं, क्योंकि दोनों बहुमत समूह (नीले) में उदाहरण और अल्पसंख्यक ग्रुप (नारंगी) को यही अनुमान (नेगेटिव) मिला.
पेयर B
पेयर B के अनुमान, सामने वाले तथ्यों पर आधारित निष्पक्षता की पुष्टि करते हैं, क्योंकि दोनों बहुमत समूह (नीले) में उदाहरण और अल्पसंख्यक ग्रुप (ऑरेंज) को यही अनुमान (पॉज़िटिव) मिला.
पेयर C
जोड़े C के अनुमान ऐसे दो उदाहरणों के लिए हैं जो दोनों ज़्यादातर ग्रुप (नीला). यह तथ्य कि मॉडल ने अलग-अलग इन एक जैसे उदाहरणों के लिए लगाए गए अनुमानों से पता चलता है कि उसकी परफ़ॉर्मेंस की समस्याओं पर ध्यान देना चाहिए. जांच की गई. हालांकि, यह नतीजा काउंटरफ़ैक्चुअल का उल्लंघन नहीं करता निष्पक्षता, जिसकी शर्तें सिर्फ़ तब लागू होती हैं, जब दोनों एक जैसे उदाहरण अलग-अलग ग्रुप से लिए गए हैं.
इनमें से कोई भी जोड़ा, तथ्यों पर आधारित निष्पक्षता का उल्लंघन नहीं करता
जोड़े A और B के अनुमान, काउंटरफ़ैक्चुअल फ़ेयरनेस के बारे में बताते हैं क्योंकि दोनों ही मामलों में, बहुमत समूह और उदाहरण के लिए, अल्पसंख्यक समूह में यही अनुमान मिलता है. जोड़ें C उदाहरण, दोनों एक ही समूह (ज़्यादातर समूह) से संबंधित हैं, इसलिए इस मामले में, काउंटरफ़ैक्चुअल फ़ेयरनेस लागू नहीं होती है.

खास जानकारी

डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) समानता, समानता, और काउंटरफ़ैक्चुअल फ़ेयरनेस, हर एक में गणित की अलग-अलग परिभाषाएं देती हैं. निष्पक्षता. और ये तीन संभव हैं निष्पक्षता को मापने के तरीके़ उपलब्ध हैं. निष्पक्षता की कुछ परिभाषाएं एक-दूसरे से जुड़ी साथ काम नहीं करता, इसका मतलब है कि उपयोगकर्ताओं को एक ही समय में पूरे किए जाने के लिए दिए गए हैं.

तो आप "सही" कैसे चुनते हैं आपके मॉडल के लिए निष्पक्षता मेट्रिक क्या है? आपको ये काम करने होंगे देखें कि इसमें एआई का इस्तेमाल किस संदर्भ में किया जा रहा है. साथ ही, इसमें आपके अहम लक्ष्य लक्ष्य हासिल करना चाहते हैं. उदाहरण के लिए, क्या इसका लक्ष्य बराबरी को बढ़ावा देना है (इस मामले में, डेमोग्राफ़िक समानता सबसे अच्छी मेट्रिक हो सकती है) या समान अवसर पाना (यहां, सभी को समान अवसर देना सबसे अच्छा विकल्प है मेट्रिक)?

मशीन लर्निंग के लिए फ़ेयरनेस के बारे में ज़्यादा जानने और इन समस्याओं के बारे में ज़्यादा जानने के लिए, यहां देखें सोलन बारोकास, मोरित्ज़ हार्ड्ट, और अरविंद नारायणन की निष्पक्षता और मशीन लर्निंग: सीमाएं और अवसर.