इस पेज पर, निष्पक्षता से जुड़ी ग्लॉसरी के शब्द शामिल हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.
A
एट्रिब्यूट
feature का समानार्थी शब्द.
मशीन लर्निंग के लिए निष्पक्षता का मतलब है कि एट्रिब्यूट से अक्सर लोगों की विशेषताओं का पता चलता है.
ऑटोमेशन बायस
जब फ़ैसला लेने वाला व्यक्ति, ऑटोमेशन के बिना दी गई जानकारी के बजाय, ऑटोमेटेड सिस्टम से मिले सुझावों को प्राथमिकता देता है. भले ही, ऑटोमेटेड सिस्टम से फ़ैसला लेने में गड़बड़ियां होती हों.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.
B
पक्षपात (नैतिकता/निष्पक्षता)
1. किसी चीज़, व्यक्ति या ग्रुप के बारे में गलत धारणा, पूर्वाग्रह या किसी के मुकाबले किसी दूसरे के पक्ष में पक्षपात करना. इन पूर्वाग्रहों का असर, डेटा इकट्ठा करने और उसका विश्लेषण करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके पर पड़ सकता है. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:
- ऑटोमेशन में मौजूद पूर्वाग्रह
- कंफ़र्मेशन बायस
- एक्सपेरिमेंटर का पूर्वाग्रह
- ग्रुप एट्रिब्यूशन में गड़बड़ी
- अनजाने में भेदभाव करना
- ग्रुप के लिए पक्षपात
- बाहरी ग्रुप के लिए एकरूपता का पूर्वाग्रह
2. सैंपलिंग या रिपोर्टिंग की प्रोसेस की वजह से, सिस्टम में हुई गड़बड़ी. इस तरह के भेदभाव के फ़ॉर्म में ये शामिल हैं:
- कवरेज में पक्षपात
- नॉन-रिस्पॉन्स बायस
- सर्वे में हिस्सा लेने वाले लोगों में मौजूद पूर्वाग्रह
- रिपोर्टिंग में पक्षपात
- सैंपलिंग बायस
- चुने गए डेटा में मौजूद पूर्वाग्रह
इसे मशीन लर्निंग मॉडल में मौजूद बायस या अनुमान के लिए बायस के साथ न जोड़ें.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.
C
कंफ़र्मेशन बायस
जानकारी को इस तरह से खोजना, उसका विश्लेषण करना, उसे पसंद करना, और याद रखना कि इससे पहले से मौजूद मान्यताओं या अनुमान की पुष्टि हो. मशीन लर्निंग डेवलपर, अनजाने में डेटा को इस तरह इकट्ठा या लेबल कर सकते हैं कि नतीजे पर उनके मौजूदा विश्वासों का असर पड़े. कंफ़र्मेशन बायस, अनजाने में होने वाली पक्षपात का एक फ़ॉर्म है.
एक्सपेरिमेंट करने वाले का पूर्वाग्रह, पुष्टि करने के पूर्वाग्रह का एक रूप है. इसमें, एक्सपेरिमेंट करने वाला व्यक्ति तब तक मॉडल को ट्रेनिंग देता रहता है, जब तक कि पहले से मौजूद किसी अनुमान की पुष्टि नहीं हो जाती.
काउंटरफ़ैक्टुअल फ़ेयरनेस
यह एक निष्पक्षता मेट्रिक है. इससे यह पता चलता है कि किसी क्लासिफ़ायर की मदद से, एक व्यक्ति के लिए वही नतीजा मिलता है या नहीं जो एक या एक से ज़्यादा संवेदनशील एट्रिब्यूट के अलावा, पहले व्यक्ति से मिलता-जुलता दूसरे व्यक्ति के लिए मिलता है. किसी मॉडल में पक्षपात के संभावित सोर्स को दिखाने का एक तरीका यह है कि आप क्लासिफ़ायर की जांच करें कि वह 'कंट्राफ़ैक्टुअल फ़ेयरनेस' के लिए सही है या नहीं.
ज़्यादा जानकारी के लिए, इनमें से कोई एक लेख पढ़ें:
- मशीन लर्निंग क्रैश कोर्स में, फ़ेयरनेस: काउंटरफ़ैक्टुअल फ़ेयरनेस के बारे में जानकारी.
- जब दुनियाएं आपस में टकरती हैं: निष्पक्षता के लिए, अलग-अलग काउंटरफ़ैक्टुअल अनुमान को शामिल करना
कवरेज बायस
चुनी गई वैल्यू में बायस देखें.
D
डेमोग्राफ़िक पैरिटी
निष्पक्षता मेट्रिक, जो तब पूरी होती है, जब किसी मॉडल के क्लासिफ़िकेशन के नतीजे, किसी दिए गए संवेदनशील एट्रिब्यूट पर निर्भर न हों.
उदाहरण के लिए, अगर लिलिपुटियन और ब्रॉबडिंगनियन, दोनों ही ग्लब्बडब्रिब यूनिवर्सिटी में आवेदन करते हैं, तो डेमोग्राफ़ी के हिसाब से समानता तब हासिल होती है, जब लिलिपुटियन और ब्रॉबडिंगनियन, दोनों के लिए स्वीकार किए गए लोगों का प्रतिशत एक जैसा हो. भले ही, एक ग्रुप औसतन दूसरे ग्रुप से ज़्यादा योग्य हो.
समान संभावना और समान अवसर के साथ तुलना करें. इनमें, संवेदनशील एट्रिब्यूट के आधार पर, एग्रीगेट में कैटगरी के नतीजे दिखाने की अनुमति होती है. हालांकि, कुछ खास ग्राउंड ट्रूथ लेबल के लिए, कैटगरी के नतीजे दिखाने की अनुमति नहीं होती. डेमोग्राफ़ी के हिसाब से बराबरी के लिए ऑप्टिमाइज़ करते समय, फ़ायदे और नुकसान को एक्सप्लोर करने वाले विज़ुअलाइज़ेशन के लिए, "स्मार्ट मशीन लर्निंग की मदद से, भेदभाव को रोकना" देखें.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: डेमोग्राफ़िक के हिसाब से बराबरी देखें.
अलग-अलग असर
लोगों के बारे में ऐसे फ़ैसले लेना जिनका असर, अलग-अलग उप-समूहों पर अलग-अलग तरह से पड़ता हो. आम तौर पर, इसका मतलब उन स्थितियों से है जहां एल्गोरिदम की मदद से फ़ैसला लेने की प्रोसेस से, कुछ उप-समूहों को दूसरों की तुलना में ज़्यादा फ़ायदा या नुकसान पहुंचता है.
उदाहरण के लिए, मान लें कि कोई एल्गोरिदम यह तय करता है कि किसी व्यक्ति को छोटे घर के लिए क़र्ज़ मिल सकता है या नहीं. अगर उसके मेलिंग पते में कोई खास पिन कोड है, तो एल्गोरिदम उसे "ज़रूरी शर्तें पूरी नहीं करता" के तौर पर मार्क कर सकता है. अगर लिलिपुटियन में से बिग-इंडियन के पास, लिलिपुटियन में से लिटल-इंडियन के मुकाबले ज़्यादा पिन कोड वाले मेलिंग पते हैं, तो इस एल्गोरिदम से अलग-अलग असर पड़ सकता है.
इसे अलग-अलग तरह से व्यवहार करने से अलग समझें. इसमें उन अंतर पर फ़ोकस किया जाता है जो तब पैदा होते हैं, जब एल्गोरिदम से फ़ैसला लेने की प्रोसेस में, सबग्रुप की विशेषताओं को साफ़ तौर पर इनपुट के तौर पर इस्तेमाल किया जाता है.
अलग-अलग तरह से व्यवहार करना
एल्गोरिदम की मदद से फ़ैसला लेने की प्रोसेस में, लोगों के संवेदनशील एट्रिब्यूट को ध्यान में रखना. इससे लोगों के अलग-अलग ग्रुप के साथ अलग-अलग व्यवहार किया जाता है.
उदाहरण के लिए, एक एल्गोरिदम के बारे में सोचें जो क़र्ज़ के आवेदन में दिए गए डेटा के आधार पर, लिलिपुटियन के लिए छोटे घर के क़र्ज़ की ज़रूरी शर्तें तय करता है. अगर एल्गोरिदम, इनपुट के तौर पर बिग-इंडियन या लिटल-इंडियन के तौर पर लिलिपुटियन के अफ़िलिएशन का इस्तेमाल करता है, तो वह उस डाइमेंशन के हिसाब से अलग-अलग तरीके से काम कर रहा है.
इसे अलग-अलग असर से अलग समझें. यह सब-ग्रुप पर एल्गोरिदम के फ़ैसलों के सामाजिक असर में अंतर पर फ़ोकस करता है. भले ही, वे सब-ग्रुप मॉडल के इनपुट हों या नहीं.
E
समान अवसर
फ़ेयरनेस मेट्रिक, जिससे यह पता चलता है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, मनचाहा नतीजा बराबर अच्छी तरह से अनुमान लगा रहा है या नहीं. दूसरे शब्दों में, अगर किसी मॉडल के लिए पॉज़िटिव क्लास का नतीजा पाना ज़रूरी है, तो सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट एक जैसा होना चाहिए.
सभी को बराबर अवसर मिलना, समान संभावनाओं से जुड़ा है. इसके लिए ज़रूरी है कि सभी ग्रुप के लिए, सही और गलत पॉज़िटिव रेट, दोनों एक जैसे हों.
मान लें कि Glubbdubdrib University, Lilliputians और Brobdingnagians दोनों को, गणित के ज़्यादा कठिन प्रोग्राम में शामिल करती है. लिलिपुटियन के माध्यमिक स्कूलों में, गणित की कक्षाओं के लिए बेहतर पाठ्यक्रम उपलब्ध कराया जाता है. साथ ही, ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी प्रोग्राम के लिए ज़रूरी शर्तें पूरी करते हैं. ब्रॉबडिंगन के सेकंडरी स्कूलों में, गणित की क्लास नहीं दी जाती हैं. इस वजह से, वहां के बहुत कम छात्र-छात्राएं क्वालीफ़ाइड होते हैं. "प्रवेश दिया गया" लेबल के लिए, सभी को समान अवसर मिलते हैं. यह बात तब लागू होती है, जब किसी देश (लिलिपुटियन या ब्रॉबडिंगनागियन) के लिए, ज़रूरी शर्तें पूरी करने वाले सभी छात्र-छात्राओं को समान रूप से प्रवेश दिया जाता है. भले ही, वे लिलिपुटियन हों या ब्रॉबडिंगनागियन.
उदाहरण के लिए, मान लें कि 100 Lilliputians और 100 Brobdingnagians ने Glubbdubdrib University में आवेदन किया है और दाखिले के फ़ैसले इस तरह किए गए हैं:
टेबल 1. लिलिपुटियन आवेदक (90% क्वालिफ़ाई हैं)
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 45 | 3 |
अस्वीकार किया गया | 45 | 7 |
कुल | 90 | 10 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50% शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 7/10 = 70% लिलिपुटियन छात्र-छात्राओं का कुल प्रतिशत: (45+3)/100 = 48% |
टेबल 2. Brobdingnagian आवेदक (10% क्वालिफ़ाई हैं):
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 5 | 9 |
अस्वीकार किया गया | 5 | 81 |
कुल | 10 | 90 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50% शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 81/90 = 90% ब्रॉबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+9)/100 = 14% |
ऊपर दिए गए उदाहरणों से पता चलता है कि ज़रूरी शर्तें पूरी करने वाले सभी छात्र-छात्राओं को बराबर अवसर मिलते हैं. ऐसा इसलिए है, क्योंकि ज़रूरी शर्तें पूरी करने वाले Lilliputians और Brobdingnagians, दोनों के लिए 50% संभावना होती है कि उन्हें स्वीकार किया जाए.
सभी को समान अवसर मिलना ज़रूरी है. हालांकि, निष्पक्षता की इन दो मेट्रिक के लिए ज़रूरी शर्तें पूरी नहीं की गई हैं:
- डेमोग्राफ़िक पैरिटी: Lilliputians और Brobdingnagians को यूनिवर्सिटी में अलग-अलग दरों पर स्वीकार किया जाता है; 48% Lilliputians छात्र-छात्राओं को स्वीकार किया जाता है, लेकिन सिर्फ़ 14% Brobdingnagian छात्र-छात्राओं को स्वीकार किया जाता है.
- समान संभावनाएं: ज़रूरी शर्तें पूरी करने वाले लिलिपुटियन और ब्रॉबडिंगनागियन, दोनों छात्र-छात्राओं को स्वीकार किए जाने की संभावना एक जैसी होती है. हालांकि, यह शर्त पूरी नहीं होती कि ज़रूरी शर्तें पूरी न करने वाले लिलिपुटियन और ब्रॉबडिंगनागियन, दोनों छात्र-छात्राओं को अस्वीकार किए जाने की संभावना एक जैसी होती है. ज़रूरी शर्तें पूरी न करने वाले Lilliputians के आवेदन अस्वीकार होने की दर 70% है, जबकि ज़रूरी शर्तें पूरी न करने वाले Brobdingnagians के आवेदन अस्वीकार होने की दर 90% है.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: सभी को बराबर अवसर देखें.
बराबर ऑड
यह मेट्रिक यह आकलन करती है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, नतीजों का अनुमान एक जैसा अच्छी तरह से लगा रहा है या नहीं. यह मेट्रिक, पॉज़िटिव क्लास और नेगेटिव क्लास, दोनों के लिए एक जैसा अनुमान लगाती है, न कि सिर्फ़ किसी एक क्लास के लिए. दूसरे शब्दों में, सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट और फ़ॉल्स नेगेटिव रेट, दोनों एक जैसे होने चाहिए.
सभी को बराबर मौका, सभी को बराबर अवसर से जुड़ा है. यह सिर्फ़ एक क्लास (पॉज़िटिव या नेगेटिव) के लिए, गड़बड़ी की दरों पर फ़ोकस करता है.
उदाहरण के लिए, मान लें कि Glubbdubdrib University ने गणित के एक कठिन प्रोग्राम में, Lilliputians और Brobdingnagians, दोनों को स्वीकार किया है. लिलिपुटियन के सेकंडरी स्कूलों में, मैथ की कक्षाओं का बेहतर पाठ्यक्रम उपलब्ध कराया जाता है. साथ ही, ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी प्रोग्राम के लिए ज़रूरी शर्तें पूरी करते हैं. ब्रॉबडिंगन के सेकंडरी स्कूलों में, गणित की क्लास नहीं होतीं. इस वजह से, वहां के बहुत कम छात्र-छात्राएं क्वालीफ़ाई कर पाते हैं. समान अवसरों की शर्त तब पूरी होती है, जब कोई भी आवेदक, चाहे वह छोटा हो या बड़ा, ज़रूरी शर्तें पूरी करता हो, तो उसे प्रोग्राम में शामिल होने की बराबर संभावना होती है. साथ ही, अगर वह ज़रूरी शर्तें पूरी नहीं करता है, तो उसे अस्वीकार किए जाने की बराबर संभावना होती है.
मान लें कि 100 लिलिपुटियन और 100 ब्रॉबडिंगनागियन, ग्लब्बडब्रिब यूनिवर्सिटी में आवेदन करते हैं. साथ ही, दाखिले के फ़ैसले इस तरह लिए जाते हैं:
टेबल 3. लिलिपुटियन आवेदक (90% क्वालिफ़ाई हैं)
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 45 | 2 |
अस्वीकार किया गया | 45 | 8 |
कुल | 90 | 10 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50% शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 8/10 = 80% लिलिपुटियन छात्र-छात्राओं का कुल प्रतिशत: (45+2)/100 = 47% |
टेबल 4. Brobdingnagian आवेदक (10% क्वालिफ़ाई हैं):
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 5 | 18 |
अस्वीकार किया गया | 5 | 72 |
कुल | 10 | 90 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं का प्रतिशत: 5/10 = 50% शर्तें पूरी न करने वाले छात्र-छात्राओं का प्रतिशत: 72/90 = 80% ब्रॉबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+18)/100 = 23% |
यहां सभी के लिए संभावनाएं बराबर हैं, क्योंकि ज़रूरी शर्तें पूरी करने वाले Lilliputian और Brobdingnagian, दोनों के लिए 50% संभावना है कि उन्हें स्वीकार किया जाए. साथ ही, ज़रूरी शर्तें पूरी न करने वाले Lilliputian और Brobdingnagian, दोनों के लिए 80% संभावना है कि उन्हें अस्वीकार किया जाए.
"सुपरवाइज़्ड लर्निंग में अवसर की समानता" में, बराबर संभावनाओं की आधिकारिक तौर पर परिभाषा इस तरह दी गई है: "अगर Ŷ और A, Y के आधार पर स्वतंत्र हैं, तो प्रिडिक्टर Ŷ, सुरक्षित एट्रिब्यूट A और नतीजे Y के लिए बराबर संभावनाओं को पूरा करता है."
एक्सपेरिमेंटर बायस
एक पक्ष की पुष्टि करना देखें.
F
निष्पक्षता से जुड़ी शर्त
किसी एल्गोरिदम पर पाबंदी लगाना, ताकि यह पक्का किया जा सके कि निष्पक्षता की एक या उससे ज़्यादा परिभाषाएं पूरी की गई हैं. निष्पक्षता से जुड़ी पाबंदियों के उदाहरण:- अपने मॉडल के आउटपुट को पोस्ट-प्रोसेसिंग करें.
- निष्पक्षता मेट्रिक का उल्लंघन करने पर, जुर्माना लगाने के लिए, लॉस फ़ंक्शन में बदलाव करना.
- ऑप्टिमाइज़ेशन से जुड़ी समस्या में, सीधे तौर पर गणितीय शर्त जोड़ना.
निष्पक्षता मेट्रिक
"निष्पक्षता" की गणितीय परिभाषा, जिसे मेज़र किया जा सकता है. आम तौर पर इस्तेमाल होने वाली निष्पक्षता मेट्रिक में ये शामिल हैं:
निष्पक्षता की कई मेट्रिक एक-दूसरे के साथ काम नहीं करतीं. निष्पक्षता की मेट्रिक के साथ काम न करने की समस्या देखें.
G
ग्रुप एट्रिब्यूशन में मौजूद पूर्वाग्रह
यह मानते हुए कि किसी व्यक्ति के लिए जो सही है वह उस ग्रुप के सभी लोगों के लिए भी सही है. डेटा इकट्ठा करने के लिए, सुविधाजनक सैंपलिंग का इस्तेमाल करने पर, ग्रुप एट्रिब्यूशन बायस के असर को और भी बढ़ाया जा सकता है. नमूने के तौर पर चुने गए डेटा में, ऐसे एट्रिब्यूशन दिए जा सकते हैं जो असल स्थिति को नहीं दिखाते.
बाहरी ग्रुप के लिए एक जैसी सोच और अपने ग्रुप के लिए एक जैसी सोच के बारे में भी जानें. ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.
H
पुराने डेटा के आधार पर गलत नतीजे
बायस का एक ऐसा टाइप जो दुनिया में पहले से मौजूद है और किसी डेटासेट में शामिल हो गया है. इन पक्षपातों से, मौजूदा सांस्कृतिक रूढ़िवादी सोच, डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) में असमानताएं, और कुछ सामाजिक ग्रुप के ख़िलाफ़ पूर्वाग्रहों को दिखाने की संभावना होती है.
उदाहरण के लिए, एक क्लासिफ़िकेशन मॉडल पर विचार करें, जो यह अनुमान लगाता है कि क़र्ज़ के लिए आवेदन करने वाला व्यक्ति, क़र्ज़ चुकाने में चूक करेगा या नहीं. इस मॉडल को दो अलग-अलग कम्यूनिटी के स्थानीय बैंकों से, 1980 के दशक के क़र्ज़ के पुराने डेटा पर ट्रेन किया गया था. अगर समुदाय A के पिछले आवेदकों के क़र्ज़ न चुकाने की संभावना, समुदाय B के आवेदकों के मुकाबले छह गुना ज़्यादा थी, तो मॉडल को पुराने डेटा से यह पता चल सकता है कि समुदाय A के आवेदकों को क़र्ज़ देने की संभावना कम है. भले ही, समुदाय A में क़र्ज़ न चुकाने की दरों को बढ़ाने वाली पुरानी स्थितियां अब काम की न हों.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.
I
अनजाने में भेदभाव करना
अपने मन के मॉडल और यादों के आधार पर, अपने-आप कोई संबंध या अनुमान लगाना. छिपे हुए पूर्वाग्रह से इन पर असर पड़ सकता है:
- डेटा को कैसे इकट्ठा और कैटगरी में बांटा जाता है.
- मशीन लर्निंग सिस्टम को डिज़ाइन और डेवलप करने का तरीका.
उदाहरण के लिए, शादी की फ़ोटो की पहचान करने के लिए क्लासिफ़ायर बनाते समय, कोई इंजीनियर फ़ोटो में सफ़ेद रंग की ड्रेस की मौजूदगी को सुविधा के तौर पर इस्तेमाल कर सकता है. हालांकि, सफ़ेद रंग के कपड़े पहनने का रिवाज सिर्फ़ कुछ समय और कुछ संस्कृतियों में रहा है.
एक पक्ष की पुष्टि करना भी देखें.
निष्पक्षता मेट्रिक के साथ काम न करना
यह विचार कि निष्पक्षता के कुछ विचार एक-दूसरे के साथ काम नहीं करते और एक साथ लागू नहीं किए जा सकते. इसलिए, सभी एमएल समस्याओं पर लागू होने वाली, निष्पक्षता को मेज़र करने वाली कोई एक मेट्रिक नहीं है.
ऐसा लग सकता है कि यह बात आपको हतोत्साहित कर रही है. हालांकि, निष्पक्षता मेट्रिक के साथ काम न करने का मतलब यह नहीं है कि निष्पक्षता को बढ़ावा देने की कोशिशें बेकार हैं. इसके बजाय, यह सुझाव दिया गया है कि किसी एआई मॉडल की समस्या के हिसाब से, निष्पक्षता को परिभाषित किया जाना चाहिए. ऐसा, इसके इस्तेमाल के उदाहरणों से होने वाले नुकसान को रोकने के मकसद से किया जाना चाहिए.
इस विषय के बारे में ज़्यादा जानकारी के लिए, "फ़ेयरनेस की (अ)संभावना के बारे में" लेख पढ़ें.
निष्पक्षता
निष्पक्षता मेट्रिक, जो यह जांच करती है कि मिलते-जुलते लोगों को एक जैसा दर्जा दिया गया है या नहीं. उदाहरण के लिए, Brobdingnagian Academy यह पक्का करके, सभी को एक जैसा मौका देना चाहती है कि एक जैसे ग्रेड और स्टैंडर्ड टेस्ट के स्कोर वाले दो छात्र/छात्राओं को, दाखिला पाने की बराबर संभावना हो.
ध्यान दें कि किसी व्यक्ति के लिए निष्पक्षता का आकलन, "मिलती-जुलती" (इस मामले में, ग्रेड और टेस्ट के स्कोर) के आधार पर किया जाता है. अगर मिलती-जुलती मेट्रिक में कोई अहम जानकारी छूट जाती है, तो निष्पक्षता से जुड़ी नई समस्याएं आ सकती हैं. जैसे, किसी छात्र के सिलेबस की कठिनाई.
किसी व्यक्ति के लिए निजता बनाए रखने के बारे में ज़्यादा जानने के लिए, "जानकारी के ज़रिए निजता बनाए रखना" लेख पढ़ें.
इन-ग्रुप बायस
अपने ग्रुप या अपनी विशेषताओं को पक्षपात के साथ दिखाना. अगर टेस्टर या रेटर में मशीन लर्निंग डेवलपर के दोस्त, परिवार या साथ काम करने वाले लोग शामिल हैं, तो ग्रुप में मौजूद लोगों के पक्ष में झुकाव की वजह से, प्रॉडक्ट की जांच या डेटासेट अमान्य हो सकता है.
इन-ग्रुप बायस, ग्रुप एट्रिब्यूशन बायस का एक टाइप है. बाहरी ग्रुप के लिए एकरूपता का पूर्वाग्रह भी देखें.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पक्षपात के टाइप देखें.
नहीं
नॉन-रिस्पॉन्स बायस
चुनी गई वैल्यू में बायस देखें.
O
आउट-ग्रुप होमोजेनिटी बायस
इस थ्योरी के मुताबिक, किसी ग्रुप के सदस्यों के व्यवहार, मूल्यों, व्यक्तित्व के लक्षणों, और अन्य विशेषताओं की तुलना करते समय, ग्रुप के बाहर के सदस्यों को ग्रुप के सदस्यों से ज़्यादा मिलता-जुलता माना जाता है. इन-ग्रुप से उन लोगों का मतलब है जिनसे आपका नियमित तौर पर इंटरैक्शन होता है; आउट-ग्रुप से उन लोगों का मतलब है जिनसे आपका नियमित तौर पर इंटरैक्शन नहीं होता. अगर लोगों से बाहरी ग्रुप के बारे में एट्रिब्यूट देने के लिए कहा जाता है, तो हो सकता है कि वे एट्रिब्यूट, उन एट्रिब्यूट के मुकाबले कम बारीक और ज़्यादा स्टीरियोटाइप वाले हों जो लोग अपने ग्रुप के लोगों के लिए बताते हैं.
उदाहरण के लिए, लिलिपुटियन, लिलिपुटियन के अन्य लोगों के घरों के बारे में ज़्यादा जानकारी दे सकते हैं. इसके लिए, वे वास्तुकला के स्टाइल, खिड़कियों, दरवाज़ों, और साइज़ में छोटे अंतर का हवाला दे सकते हैं. हालांकि, वही लिलिपुटियन यह भी कह सकते हैं कि ब्रोबडिंगनियन सभी एक जैसे घरों में रहते हैं.
आउट-ग्रुप होमोजेनिटी बायस, ग्रुप एट्रिब्यूशन बायस का एक टाइप है.
इन-ग्रुप बायस भी देखें.
P
हिस्सा लेने वाले लोगों के पक्ष में झुकाव
नॉन-रिस्पॉन्स बायस का दूसरा नाम. चुनी गई वैल्यू में बायस देखें.
प्रोसेस होने के बाद
मॉडल को चलाने के बाद, मॉडल के आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, मॉडल में बदलाव किए बिना, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए किया जा सकता है.
उदाहरण के लिए, किसी एट्रिब्यूट के लिए ट्रू पॉजिटिव रेट की वैल्यू एक जैसी हो, यह पक्का करने के लिए, क्लासिफ़िकेशन थ्रेशोल्ड सेट करके, बाइनरी क्लासिफ़ायर पर पोस्ट-प्रोसेसिंग लागू की जा सकती है. इससे, किसी एट्रिब्यूट के लिए समान अवसर बनाए रखा जा सकता है.
अनुमानित पैरिटी
यह एक निष्पक्षता मेट्रिक है. इससे यह पता चलता है कि किसी क्लासिफ़ायर के लिए, सटीक रेटिंग, सबग्रुप के लिए एक जैसी हैं या नहीं.
उदाहरण के लिए, कॉलेज में दाखिला पाने का अनुमान लगाने वाला मॉडल, देश के हिसाब से समानता का अनुमान तब ही देगा, जब लिलिपुटियन और ब्रॉबडिंगनियन के लिए सटीकता की दर एक जैसी हो.
अनुमानित किराया बराबरी को कभी-कभी किराया बराबरी का अनुमान भी कहा जाता है.
अनुमानित समानता के बारे में ज़्यादा जानकारी के लिए, "निष्पक्षता की परिभाषाओं के बारे में जानकारी" (सेक्शन 3.2.1) देखें.
किराये की अनुमानित समानता
प्रेडिकटिव पैरिटी का दूसरा नाम.
डेटा को पहले से प्रोसेस करना
मॉडल को ट्रेनिंग देने से पहले, डेटा को प्रोसेस करना. डेटा को पहले से प्रोसेस करना उतना ही आसान हो सकता है जितना कि अंग्रेज़ी के टेक्स्ट कॉर्पस से ऐसे शब्द हटाना जो अंग्रेज़ी की डिक्शनरी में नहीं होते. इसके अलावा, यह इतना मुश्किल भी हो सकता है जितना कि डेटा पॉइंट को इस तरह से फिर से एक्सप्रेशन करना कि संवेदनशील एट्रिब्यूट से जुड़े ज़्यादा से ज़्यादा एट्रिब्यूट हट जाएं. डेटा को पहले से प्रोसेस करने से, निष्पक्षता से जुड़ी शर्तों को पूरा करने में मदद मिल सकती है.प्रॉक्सी (संवेदनशील एट्रिब्यूट)
यह एक ऐसा एट्रिब्यूट है जिसका इस्तेमाल, संवेदनशील एट्रिब्यूट के लिए किया जाता है. उदाहरण के लिए, किसी व्यक्ति के पिन कोड का इस्तेमाल, उसकी आय, नस्ल या जातीयता के बारे में जानकारी देने के लिए किया जा सकता है.R
रिपोर्टिंग में पक्षपात
यह ज़रूरी नहीं है कि लोग जितनी बार किसी ऐक्शन, नतीजे या प्रॉपर्टी के बारे में लिखते हैं उतनी ही बार वे असल ज़िंदगी में भी ऐसा करते हों. इसके अलावा, यह भी ज़रूरी नहीं है कि कोई प्रॉपर्टी किसी व्यक्ति के ग्रुप की विशेषता के तौर पर कितनी बार इस्तेमाल की गई है. रिपोर्टिंग में पक्षपात होने पर, उस डेटा के कॉम्पोज़िशन पर असर पड़ सकता है जिससे मशीन लर्निंग सिस्टम सीखते हैं.
उदाहरण के लिए, किताबों में laughed शब्द, breathed शब्द से ज़्यादा इस्तेमाल होता है. मशीन लर्निंग मॉडल, किसी किताब के कॉर्पस में हंसने और सांस लेने की फ़्रीक्वेंसी का अनुमान लगाता है. इससे यह पता चलता है कि हंसने की फ़्रीक्वेंसी, सांस लेने की फ़्रीक्वेंसी से ज़्यादा है.
S
सैंपलिंग बायस
चुनी गई वैल्यू में बायस देखें.
चुनने में पक्षपात
सैंपल किए गए डेटा से निकाले गए नतीजों में गड़बड़ियां. ऐसा, डेटा में मौजूद सैंपल और उन सैंपल के बीच व्यवस्थित अंतर पैदा करने वाली चुनने की प्रोसेस की वजह से होता है. चुनिंदा नमूने के लिए ये गड़बड़ियां हो सकती हैं:
- कवरेज में पक्षपात: डेटासेट में दी गई जनसंख्या, उस जनसंख्या से मेल नहीं खाती जिसके लिए मशीन लर्निंग मॉडल, अनुमान लगा रहा है.
- सैंपलिंग में गड़बड़ी: टारगेट ग्रुप से डेटा को रैंडम तरीके से इकट्ठा नहीं किया जाता.
- नॉन-रिस्पॉन्स बायस (इसे पार्टिसिपेशन बायस भी कहा जाता है): कुछ ग्रुप के उपयोगकर्ता, सर्वे से ऑप्ट-आउट करने की दर, दूसरे ग्रुप के उपयोगकर्ताओं की तुलना में अलग होती है.
उदाहरण के लिए, मान लें कि आपने एक मशीन लर्निंग मॉडल बनाया है, जो लोगों के मनोरंजन के लिए फ़िल्म चुनने में मदद करता है. ट्रेनिंग डेटा इकट्ठा करने के लिए, सिनेमा में फ़िल्म देखने के लिए आई हर उस व्यक्ति को सर्वे दिया जाता है जो थिएटर की सबसे आगे वाली सीट पर बैठा हो. ऐसा लग सकता है कि डेटासेट इकट्ठा करने का यह एक सही तरीका है. हालांकि, डेटा इकट्ठा करने के इस तरीके से, चुनिंदा डेटा के लिए ये गड़बड़ियां हो सकती हैं:
- कवरेज में पक्षपात: फ़िल्म देखने के लिए चुने गए लोगों के सैंपल से, हो सकता है कि आपके मॉडल के अनुमान उन लोगों के लिए सही न हों जिन्होंने पहले से फ़िल्म में इतनी दिलचस्पी नहीं दिखाई थी.
- सैंपलिंग में पक्षपात: आपने रैंडम सैंपलिंग के बजाय, सिर्फ़ उन लोगों का सैंपल लिया है जो फ़िल्म देखने के लिए सबसे आगे की पंक्ति में बैठे थे. ऐसा हो सकता है कि आगे की पंक्ति में बैठे लोगों की दिलचस्पी, दूसरी पंक्तियों में बैठे लोगों की तुलना में फ़िल्म में ज़्यादा हो.
- नॉन-रिस्पॉन्स बायस: आम तौर पर, जिन लोगों की राय ज़्यादा ज़ोरदार होती है वे वैकल्पिक सर्वे में ज़्यादा बार जवाब देते हैं. फ़िल्म के बारे में सर्वे करना ज़रूरी नहीं है. इसलिए, जवाबों के सामान्य (बेल-आकार) डिस्ट्रिब्यूशन के मुकाबले, बाइमोडल डिस्ट्रिब्यूशन होने की संभावना ज़्यादा होती है.
संवेदनशील एट्रिब्यूट
यह एक ऐसा एट्रिब्यूट है जिसे कानूनी, नैतिक, सामाजिक या निजी वजहों से खास तौर पर ध्यान में रखा जा सकता है.U
संवेदनशील एट्रिब्यूट के बारे में जानकारी न होना
ऐसी स्थिति जिसमें संवेदनशील एट्रिब्यूट मौजूद हैं, लेकिन उन्हें ट्रेनिंग डेटा में शामिल नहीं किया गया है. संवेदनशील एट्रिब्यूट अक्सर किसी व्यक्ति के डेटा के अन्य एट्रिब्यूट से जुड़े होते हैं. इसलिए, संवेदनशील एट्रिब्यूट के बारे में जानकारी के बिना ट्रेन किया गया मॉडल, उस एट्रिब्यूट के लिए अलग-अलग असर डाल सकता है या निष्पक्षता से जुड़ी अन्य शर्तों का उल्लंघन कर सकता है.