इस पेज में निष्पक्षता से जुड़ी शब्दावली शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
जवाब
एट्रिब्यूट
feature का समानार्थी शब्द.
मशीन लर्निंग के निष्पक्षता में, एट्रिब्यूट अक्सर लोगों से जुड़े गुणों के बारे में बताते हैं.
ऑटोमेशन बायस
जब कोई व्यक्ति फ़ैसला लेता है कि कोई व्यक्ति, ऑटोमेशन के बिना तैयार की गई जानकारी के बजाय, अपने-आप काम करने वाला फ़ैसला लेने वाले सिस्टम के सुझावों को स्वीकार करता है, तब भी
B
पक्षपात (नैतिक/निष्पक्षता)
1. कुछ चीज़ों, लोगों या समूहों के बारे में दूसरों की तुलना में रूढ़िवादी, पक्षपात या पक्षपात करना. ये पूर्वाग्रह डेटा के संग्रह और व्याख्या करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम के साथ इंटरैक्ट करने के तरीके को प्रभावित कर सकते हैं. इस तरह के पूर्वाग्रह में ये शामिल हैं:
- ऑटोमेशन बायस
- पुष्टि करने का पक्षपात
- एक्सपेरिमेंट करने वाले का पक्षपात
- ग्रुप एट्रिब्यूशन बायस
- इंप्लिसिट पूर्वाग्रह
- इन-ग्रुप बायस
- ग्रुप के बाहर एक जैसा बायस
2. सैंपलिंग या रिपोर्टिंग प्रोसेस के दौरान होने वाली व्यवस्थित गड़बड़ी. इस तरह के पूर्वाग्रह में ये शामिल हैं:
- कवरेज बायस
- नॉन-रिस्पॉन्स बायस
- हिस्सा लेने पर पक्षपात
- रिपोर्टिंग में पक्षपात
- सैंपलिंग बायस
- चुनाव में पक्षपात
मशीन लर्निंग मॉडल में, पूर्वाग्रह वाले शब्द या पूर्वाग्रह को समझने की कोशिश न करें.
C
एक पक्ष की पुष्टि करना
जानकारी को इस तरह खोजने, समझने, उसके पक्ष में रखने, और उसे याद करने की आदत हो जाती है जो किसी व्यक्ति की पहले से मौजूद मान्यताओं या परिकल्पनाओं की पुष्टि करती हो. मशीन लर्निंग डेवलपर अनजाने में डेटा को इस तरह इकट्ठा या लेबल कर सकते हैं जिससे उनकी मौजूदा मान्यताओं पर असर पड़ता है. पुष्टि करने वाला पूर्वाग्रह एक तरह का इंप्लिसिट पूर्वाग्रह है.
प्रयोग करने वाले का पूर्वाग्रह पुष्टि करने से जुड़ा एक तरह का पूर्वाग्रह है. इसमें एक प्रयोग करने वाला व्यक्ति, मॉडल को तब तक ट्रेनिंग देना जारी रखता है, जब तक कि वह पहले से मौजूद किसी परिकल्पना की पुष्टि नहीं हो जाती.
काउंटरफ़ैक्चुअल फ़ेयरनेस
फ़ेयरनेस मेट्रिक, जिससे यह पता चलता है कि कैटगरी तय करने वाला टूल, एक या उससे ज़्यादा संवेदनशील एट्रिब्यूट को छोड़कर, किसी एक व्यक्ति के लिए एक जैसे नतीजे दिखाता है या नहीं. काउंटरफ़ैक्चुअल फ़ेयरनेस के लिए क्लासिफ़ायर का मूल्यांकन करना, किसी मॉडल में पक्षपात वाले संभावित सोर्स को सामने लाने का एक तरीका है.
काउंटरफ़ैक्चुअल फ़ेयरनेस के बारे में ज़्यादा जानने के लिए, "जब वर्ल्ड्स कोलाइड: निष्पक्षता में अलग-अलग काउंटरफ़ैक्चुअल आकलन को इंटिग्रेट करना" देखें.
कवरेज बायस
चुनाव में पक्षपात देखें.
D
डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) की समानता
फ़ेयरनेस मेट्रिक का इस्तेमाल तब किया जाता है, जब किसी मॉडल की कैटगरी के नतीजे, दिए गए संवेदनशील एट्रिब्यूट पर निर्भर न हों.
उदाहरण के लिए, अगर लिलिपुटियन और ब्रोबडिंगनागियन, दोनों ग्लबडबड्रिब यूनिवर्सिटी में आवेदन करते हैं, तो डेमोग्राफ़िक समानता तब मिलती है, जब लिलिप्युटियन लोगों का प्रतिशत बराबर हो.
समान स्थिति और अवसर की समानता के बीच अंतर है. इससे, कैटगरी तय करने के नतीजों को संवेदनशील विशेषताओं पर निर्भर होने की अनुमति मिलती है. हालांकि, संवेदनशील एट्रिब्यूट पर निर्भर होने के लिए, बताए गए बुनियादी तथ्य वाले लेबल के लिए, कैटगरी में बांटने के नतीजों की अनुमति नहीं दी जाती. विज़ुअलाइज़ेशन में अंतर जानने के लिए, "स्मार्ट मशीन लर्निंग की मदद से भेदभाव करना" लेख पढ़ें.
अलग-अलग तरह का असर
ऐसे लोगों के बारे में फ़ैसले लेना जिनसे जनसंख्या के अलग-अलग सबग्रुप पर बुरा असर पड़ता है. आम तौर पर, यह उन स्थितियों के बारे में बताता है जिनमें एल्गोरिदम की वजह से फ़ैसला लेने की प्रक्रिया, कुछ सबग्रुप को दूसरों की तुलना में ज़्यादा नुकसान पहुंचाती है या उन्हें फ़ायदा पहुंचाती है.
उदाहरण के लिए, मान लीजिए कि किसी लिलिप्यूटियन को मिनिएचर-होम लोन के लिए मंज़ूरी देने वाला एल्गोरिदम, उन्हें "मंज़ूरी नहीं है" कैटगरी में रख सकता है. ऐसा तब होगा, जब उनके डाक पते में कोई पिन कोड हो. अगर इस बात की संभावना ज़्यादा है कि बिग-एंडियन लिलिपुटियन, लिटल-एंडियन लिलिप्यूटियन की तुलना में इस पिन कोड वाले डाक पते वाले ईमेल पते रखते हैं, तो इस एल्गोरिदम का असर अलग-अलग हो सकता है.
अलग-अलग ट्रीटमेंट के उलट, दोनों में अंतर होता है. इन असमानताओं पर तब ध्यान दिया जाता है, जब सबग्रुप की विशेषताएं एल्गोरिदम से जुड़ी फ़ैसला लेने की प्रोसेस के लिए साफ़ तौर पर इनपुट होती हैं.
अलग-अलग ट्रीटमेंट
किसी व्यक्ति की संवेदनशील विशेषताओं को एल्गोरिदम की मदद से फ़ैसला लेने के लिए इस प्रोसेस में शामिल करना. इससे, लोगों के अलग-अलग सबग्रुप के साथ अलग-अलग तरह का व्यवहार किया जाता है.
उदाहरण के लिए, एक ऐसा एल्गोरिदम देखें जो लिलीप्युटीन के क़र्ज़ के आवेदन में दिए गए डेटा के आधार पर, यह तय करता है कि उनके लिए मिनिएचर-होम लोन लेने की शर्तें क्या हैं. अगर एल्गोरिदम, इनपुट के तौर पर लिलिपुटियन की अफ़िलिएशन को बिग-एंडियन या लिटिल-एंडियन के तौर पर इस्तेमाल करता है, तो यह उस डाइमेंशन के साथ अलग व्यवहार लागू कर रहा है.
असमान प्रभाव के विपरीत, जिसमें सबग्रुप पर एल्गोरिदम से जुड़े फ़ैसलों के सामाजिक असर में असमानता पर ध्यान दिया जाता है, भले ही वे सबग्रुप मॉडल के लिए इनपुट हों या नहीं.
E
समान अवसर
फ़ेयरनेस मेट्रिक. इससे यह पता लगाया जाता है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, मनमुताबिक नतीजे का बराबर अनुमान लगा रहा है या नहीं. दूसरे शब्दों में, अगर किसी मॉडल के लिए ज़रूरी नतीजा पॉज़िटिव क्लास है, तो लक्ष्य यह होगा कि सही पॉज़िटिव रेट सभी ग्रुप के लिए एक ही हो.
अवसरों की समानता, समान संभावना से जुड़ी है, जिसके लिए ज़रूरी है कि सभी ग्रुप के लिए, ट्रू पॉज़िटिव रेट और फ़ॉल्स पॉज़िटिव रेट, दोनों एक जैसे हों.
मान लीजिए कि ग्लूबडबड्रिब यूनिवर्सिटी, लिलीपुटियन और ब्रोबडिंगनागियन, दोनों को गणित के कड़े प्रोग्राम में शामिल करती है. लिलिप्युटियन के सेकंडरी स्कूलों में गणित की कक्षाओं का बेहतरीन पाठ्यक्रम उपलब्ध है. इनमें से ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी के प्रोग्राम की ज़रूरी शर्तें पूरी करते हैं. ब्रोबडिंगनागियन के सेकंडरी स्कूलों में गणित की कोई भी क्लास नहीं होती. इसकी वजह से, उनके छात्र-छात्राओं की संख्या बहुत कम है. राष्ट्रीयता (लिलिप्यूटियन या ब्रोबडिंगनाजियन) के हिसाब से "मंज़ूरी दिए गए" लेबल के पसंदीदा लेबल के लिए समान अवसर की बराबरी है, अगर काबिल छात्र-छात्राओं को भी अनुमति मिलने की एक ही संभावना है, चाहे वे लिलिपुटियन हों या ब्रोबडिंगनैजियन.
उदाहरण के लिए, मान लें कि ग्लबडुबड्रिब यूनिवर्सिटी में 100 लिलिप्यूटियन और 100 ब्रोबडिंगनैगियन आवेदन करते हैं और इनमें दाखिला लेने का फ़ैसला इस तरह लिया जाता है:
टेबल 1. लिलिप्यूटियन आवेदक (90% क्वालिफ़ाइड)
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल किया गया | 45 | 3 |
अस्वीकार किया गया | 45 | 7 |
कुल | 90 | 10 |
योग्य छात्र-छात्राओं का प्रतिशत: 45/90 = 50% काबिल न होने वाले छात्र-छात्राओं का प्रतिशत अस्वीकार किया गया: 7/10 = 70% लिलीप्यूट के छात्र-छात्राओं का कुल प्रतिशत: (45+3)/100 = 48% |
टेबल 2. ब्रोबडिंगनागियन आवेदक (10% योग्यता रखने वाले हैं):
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल किया गया | 5 | 9 |
अस्वीकार किया गया | 5 | 81 |
कुल | 10 | 90 |
आवेदन करने वाले योग्य छात्र-छात्राओं का प्रतिशत: 5/10 = 50% आवेदन नहीं कर पाने वाले छात्र-छात्राओं का प्रतिशत: 81/90 = 90% ब्रोबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+9)/100 = 14% |
पहले दिए गए उदाहरण, योग्यता पूरी करने वाले छात्र-छात्राओं को मंज़ूरी पाने के समान अवसर देते हैं. इसकी वजह यह है कि क्वालीफ़ाइड लिलिप्यूटियन और ब्रोबडिंगनागियन, दोनों के पास एडमिशन मिलने की 50% संभावना है.
हालांकि, अवसरों के समान अवसर सही हैं, लेकिन इन दो निष्पक्षता मेट्रिक से संतुष्ट नहीं हैं:
- डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) के हिसाब से: लिलिप्यूटियन और ब्रोबडिंगनागियन को यूनिवर्सिटी में अलग-अलग रेट पर दाखिला मिलता है. लिलिपुटियन के 48% छात्र-छात्राओं को इसमें शामिल किया जाता है, लेकिन ब्रोबडिंगनागियन के सिर्फ़ 14% छात्र-छात्राओं को ही इसमें शामिल किया जाता है.
- एक जैसी शर्तें: लिलिप्युटियन और ब्रोबडिंगनाजियन, दोनों ही योग्यता पूरी करने वाले छात्र-छात्राओं को इसमें शामिल होने का एक जैसा मौका मिलता है. हालांकि, योग्यता न पाने वाले लिलिपुटियन और ब्रोबडिंगनैगियन, दोनों के पास एक जैसी दिक्कतें हैं. इससे संतुष्ट नहीं है. ज़रूरी शर्तें पूरी न करने वाले लिलिप्युटियन के लोगों की अस्वीकार किए जाने की दर 70% है, जबकि ज़रूरी शर्तें पूरी न करने वाले ब्रोबडिंगनैगियन के अस्वीकार करने की दर 90% है.
अवसरों में समानता के बारे में ज़्यादा जानकारी के लिए, "सुपरवाइज़्ड लर्निंग में अवसर की समानता" देखें. इसके अलावा, "स्मार्ट मशीन लर्निंग के साथ भेदभाव पर हमला करना" भी देखें. ऐसा करने से, आपको बराबरी का मौका देने के लिए ऑप्टिमाइज़ करते समय, आंकड़ों के विज़ुअलाइज़ेशन को समझने में मदद मिलेगी.
बराबरी की संभावना
यह फ़ेयरनेस मेट्रिक से पता चलता है कि कोई मॉडल, किसी संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, नतीजों का बराबर अनुमान लगा रहा है या नहीं. यह मेट्रिक, पॉज़िटिव क्लास और नेगेटिव क्लास, दोनों के लिए होती है. सिर्फ़ एक क्लास या किसी अन्य क्लास के लिए नहीं. दूसरे शब्दों में, सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट और गलत नेगेटिव रेट, दोनों एक ही होने चाहिए.
समान संभावना, अवसर की समानता से जुड़ी है, जिसका फ़ोकस सिर्फ़ एक क्लास (पॉज़िटिव या नेगेटिव) के लिए गड़बड़ी की दर पर होता है.
उदाहरण के लिए, मान लें कि ग्लबडुबड्रिब यूनिवर्सिटी, लिलिप्यूटियन और ब्रोब्डिंगनैगियन, दोनों को गणित के मुश्किल प्रोग्राम में शामिल करती है. लिलिप्युटियन के सेकंडरी स्कूलों में गणित की कक्षाओं का बेहतर पाठ्यक्रम उपलब्ध होता है. इनमें से ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी प्रोग्राम के लिए क्वालीफ़ाइड होते हैं. ब्रोबडिंगनागियन के सेकंडरी स्कूल में गणित की कोई क्लास नहीं जाती. इसकी वजह से, उनके छात्र-छात्राओं में बहुत कम छात्र-छात्राएं पढ़ते हैं. शर्तों के मुताबिक
मान लीजिए कि ग्लबडुबड्रिब यूनिवर्सिटी में 100 लिलिपुटियन और 100 ब्रोबडिंगनागियन आवेदन करते हैं और इनमें दाखिला लेने का फ़ैसला इस तरह लिया जाता है:
टेबल 3. लिलिप्यूटियन आवेदक (90% क्वालिफ़ाइड)
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल किया गया | 45 | 2 |
अस्वीकार किया गया | 45 | 8 |
कुल | 90 | 10 |
योग्य छात्र-छात्राओं का प्रतिशत: 45/90 = 50% काबिल न होने वाले छात्र-छात्राओं का प्रतिशत अस्वीकार किया गया: 8/10 = 80% लिलीप्यूट के छात्र-छात्राओं का कुल प्रतिशत: (45+2)/100 = 47% |
टेबल 4. ब्रोबडिंगनागियन आवेदक (10% योग्यता रखने वाले हैं):
क्वालिफ़ाई किया है | अयोग्य | |
---|---|---|
शामिल किया गया | 5 | 18 |
अस्वीकार किया गया | 5 | 72 |
कुल | 10 | 90 |
योग्य छात्र-छात्राओं का प्रतिशत: 5/10 = 50% आवेदन नहीं करने वाले छात्र-छात्राओं का प्रतिशत: 72/90 = 80% ब्रोबडिंगनागियन छात्र-छात्राओं का कुल प्रतिशत: (5+18)/100 = 23% |
बराबरी वाली मुश्किलों का सामना करना पड़ता है, क्योंकि लिलिप्यूटियन और ब्रोबडिंगनागियन, दोनों ही छात्र-छात्राओं को इसमें शामिल होने की संभावना 50% है. वहीं, काबिल न होने वाले लिलिप्यूटियन और ब्रोबडिंगनागियन, दोनों के आवेदन अस्वीकार होने की संभावना 80% है.
समान सीमाओं को औपचारिक तौर पर "सुपरवाइज़्ड लर्निंग में अवसर की समानता" इस तरह परिभाषित किया गया है: "प्रीडिक्टर CANNOT TRANSLATE
एक्सपेरिमेंट करने वाले का बायस
पुष्टि का मापदंड देखें.
म॰
फ़ेयरनेस कंस्ट्रेंट
एल्गोरिदम में कंस्ट्रेंट लागू करके, यह पक्का किया जा सकता है कि निष्पक्षता की एक या उससे ज़्यादा परिभाषाएं पूरी की गई हों. निष्पक्षता से जुड़ी पाबंदियों के कुछ उदाहरण:- प्रोसेस होने के बाद आपके मॉडल का आउटपुट.
- फ़ेयरनेस मेट्रिक का उल्लंघन करने पर जुर्माना लगाया जा सकता है. इसके लिए, लॉस फ़ंक्शन में बदलाव करना.
- ऑप्टिमाइज़ेशन के सवाल में गणित के सवाल सीधे तौर पर जोड़ना.
फ़ेयरनेस मेट्रिक
"निष्पक्षता" की गणितीय परिभाषा, जिसे मापा जा सकता है. निष्पक्षता से जुड़ी आम तौर पर इस्तेमाल की जाने वाली मेट्रिक में ये शामिल हैं:
- समान शर्तें
- अनुमानित समानता
- कानूनी विरोध में निष्पक्षता
- डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) के बीच समानता
फ़ेयरनेस से जुड़ी कई मेट्रिक म्युचुअली एक्सक्लूसिव होती हैं. इनके बारे में जानने के लिए, फ़ेयरनेस मेट्रिक के साथ काम न करने वाली मेट्रिक देखें.
G
ग्रुप एट्रिब्यूशन बायस
यह मानते हुए कि किसी व्यक्ति के लिए जो भी सही है, वह उस समूह के सभी लोगों के लिए भी सही होता है. अगर डेटा इकट्ठा करने के लिए सुविधा सैंपलिंग का इस्तेमाल किया जाता है, तो ग्रुप एट्रिब्यूशन बायस का असर बढ़ सकता है. बिना प्रतिनिधित्व वाले सैंपल में, ऐसे एट्रिब्यूशन बनाए जा सकते हैं जो वास्तविकता न दिखाते हों.
आउट-ग्रुप एकरूपता का पूर्वाग्रह और इन-ग्रुप बायस भी देखें.
H
ऐतिहासिक पक्षपात
एक तरह का पूर्वाग्रह जो दुनिया में पहले से ही मौजूद है और जिसका इस्तेमाल डेटासेट के लिए किया जा चुका है. ये पूर्वाग्रह की वजह से मौजूदा सांस्कृतिक रूढ़िवादी सोच, डेमोग्राफ़िक असमानता, और कुछ खास सामाजिक समूहों के ख़िलाफ़ दर्ज पूर्वाग्रहों को दिखाने की कोशिश होती है.
उदाहरण के लिए, एक कैटगरी तय करने के मॉडल पर विचार करें जिससे यह अनुमान लगाया जा सके कि क़र्ज़ का आवेदन करने वाला कोई व्यक्ति, क़र्ज़ की डिफ़ॉल्ट रकम लेगा या नहीं. इसे दो अलग-अलग समुदायों के स्थानीय बैंकों से मिले, 1980 के दशक के क़र्ज़ के डिफ़ॉल्ट डेटा के आधार पर ट्रेनिंग दी गई थी. अगर कम्यूनिटी A के पुराने आवेदकों के क़र्ज़ की डिफ़ॉल्ट दरें कम्यूनिटी B के आवेदकों की तुलना में छह गुना ज़्यादा होती हैं, तो मॉडल को एक ऐतिहासिक पूर्वाग्रह मिल सकता है. इसकी वजह से कम्यूनिटी A में क़र्ज़ को मंज़ूरी मिलने की संभावना कम हो सकती है.
I
अनजाने में भेदभाव करना
लोगों के मन के मॉडल और यादों के आधार पर, अपने-आप उनसे जुड़ने या अनुमान लगाने में मदद मिलती है. इंप्लिसिट बायस इन चीज़ों पर असर डाल सकते हैं:
- डेटा को इकट्ठा करने और उसे कैटगरी में बांटने का तरीका.
- मशीन लर्निंग सिस्टम को कैसे डिज़ाइन और डेवलप किया जाता है.
उदाहरण के लिए, शादी की फ़ोटो की पहचान करने के लिए क्लासिफ़ायर बनाते समय, इंजीनियर किसी फ़ोटो में सफ़ेद ड्रेस की मौजूदगी को सुविधा के तौर पर इस्तेमाल कर सकता है. हालांकि, सफ़ेद कपड़ों का प्रचलन सिर्फ़ कुछ काल में और कुछ संस्कृतियों में किया जाता रहा है.
पुष्टि करने का पूर्वाग्रह भी देखें.
फ़ेयरनेस मेट्रिक के साथ काम नहीं करने की जानकारी
यह विचार कि निष्पक्षता की कुछ धारणाएं आपस में मेल नहीं खातीं और एक साथ पूरा नहीं किया जा सकता. इस वजह से, निष्पक्षता का आकलन करने के लिए ऐसी कोई एक यूनिवर्सल मेट्रिक नहीं है जिसे मशीन लर्निंग से जुड़े सभी सवालों पर लागू किया जा सके.
हालांकि, निष्पक्षता वाली मेट्रिक के साथ काम न करने का मतलब यह नहीं है कि निष्पक्षता की कोशिश का कोई फ़ायदा नहीं होगा. इसके बजाय, इससे पता चलता है कि एमएल की किसी समस्या के लिए, निष्पक्षता को कॉन्टेक्स्ट के हिसाब से परिभाषित किया जाना चाहिए. इसका मकसद, इसके इस्तेमाल के उदाहरणों से होने वाले नुकसान को रोकना है.
इस विषय पर ज़्यादा जानकारी के लिए, " निष्पक्षता की (इम) संभावना पर" देखें.
व्यक्तिगत निष्पक्षता
एक निष्पक्षता मेट्रिक, जो यह जांच करती है कि मिलते-जुलते लोगों को एक जैसे रखा जाता है या नहीं. उदाहरण के लिए, Brobdingnagian Academy की मदद से, यह पक्का करने की कोशिश की जा सकती है कि एक जैसे ग्रेड और टेस्ट स्कोर वाले दो छात्र-छात्राओं को दाखिला मिलने की संभावना बराबर हो.
ध्यान दें कि व्यक्तिगत निष्पक्षता पूरी तरह से इस बात पर निर्भर करती है कि आप "समानता" (इस मामले में, ग्रेड और टेस्ट स्कोर) को कैसे परिभाषित करते हैं और अगर आपकी समानता मेट्रिक (जैसे, छात्र/छात्रा के पाठ्यक्रम की सख्ती) में कोई ज़रूरी जानकारी नहीं मिल पाती है, तो आपके लिए निष्पक्षता की नई समस्याएं पैदा हो सकती हैं.
व्यक्तिगत निष्पक्षता के बारे में ज़्यादा जानकारी के लिए, "फ़ेयरनेस थ्रू अवेयरनेस" पर जाएं.
इन-ग्रुप बायस
अपने ग्रुप या अपने लक्षणों में पक्षपात दिखाना. अगर टेस्टर या रेटिंग देने वालों में मशीन लर्निंग डेवलपर के दोस्त, परिवार या सहकर्मी शामिल हैं, तो इन-ग्रुप बायस प्रॉडक्ट की टेस्टिंग या डेटासेट को अमान्य कर सकता है.
इन-ग्रुप बायस, ग्रुप एट्रिब्यूशन बायस का एक रूप है. ग्रुप से बाहर एक जैसा बायस भी देखें.
नहीं
नॉन-रिस्पॉन्स बायस
चुनाव में पक्षपात देखें.
O
एक ही ग्रुप से बाहर होने वाला भेदभाव
नज़रिए, मूल्यों, व्यक्तित्व की विशेषताओं, और अन्य विशेषताओं की तुलना करते समय, ग्रुप के सदस्यों की तुलना में, ग्रुप से बाहर के सदस्यों को ज़्यादा समान रूप में देखने का रुझान होता है. इन-ग्रुप का मतलब उन लोगों से है जिनसे आप नियमित तौर पर इंटरैक्ट करते हैं. ग्रुप के बाहर का मतलब उन लोगों से है जिनसे आप नियमित रूप से इंटरैक्ट नहीं करते. अगर आपने डेटासेट में लोगों को आउट-ग्रुप के बारे में एट्रिब्यूट सबमिट करने के लिए कहा है, तो हो सकता है कि वे एट्रिब्यूट कम बारीक हों. साथ ही, वे ग्रुप में शामिल लोगों के लिए सूची में शामिल एट्रिब्यूट की तुलना में ज़्यादा रूढ़िवादी हो सकते हैं.
उदाहरण के लिए, लिलिप्युटियन लोगों के घरों के डिज़ाइन के बारे में थोड़ी-बहुत जानकारी दे सकते हैं. उदाहरण के लिए, वे घर की बनावट, खिड़कियों, दरवाज़ों, और उनके आकार में मामूली अंतर बता सकते हैं. हालांकि, यही लिलिप्युटियन सिर्फ़ यह बता सकते हैं कि ब्रोबिंगनेगियन के सभी घर एक जैसे रहते हैं.
आउट-ग्रुप एकरूपता बायस, ग्रुप एट्रिब्यूशन बायस का एक रूप है.
इन-ग्रुप बायस भी देखें.
P
हिस्सा लेने से जुड़ा भेदभाव
गैर-प्रतिक्रिया पूर्वाग्रह के लिए समानार्थी शब्द. चुनाव में पक्षपात देखें.
पोस्ट-प्रोसेसिंग
मॉडल चलाने के बाद मॉडल के आउटपुट में बदलाव करना. मॉडल में बदलाव किए बिना, निष्पक्षता से जुड़ी पाबंदियों को लागू करने के लिए, पोस्ट-प्रोसेसिंग का इस्तेमाल किया जा सकता है.
उदाहरण के लिए, कोई क्लासिफ़िकेशन थ्रेशोल्ड सेट करके, पोस्ट-प्रोसेसिंग को बाइनरी क्लासिफ़ायर पर लागू कर सकता है. इससे कुछ एट्रिब्यूट के लिए ऑपर्च्यूनिटी की एक जैसी क्वालिटी बनी रहेगी. इसके लिए, जांच करके पता करना होगा कि उस एट्रिब्यूट की सभी वैल्यू के लिए सही पॉज़िटिव रेट है.
अनुमानित समानता
फ़ेयरनेस मेट्रिक, जिससे यह पता चलता है कि क्लासिफ़ायर के लिए, सटीक दरें, विचार किए जा रहे सबग्रुप के बराबर हैं या नहीं.
उदाहरण के लिए, कोई मॉडल जो यह अनुमान लगाता है कि कॉलेज में शामिल होने की मंज़ूरी मिलने की दर, राष्ट्रीयता के हिसाब से एक जैसी है, अगर लिलिप्यूटियन और ब्रोबडिंगनैगियन के सटीक होने की दर एक जैसी हो.
अनुमानित समानता को कभी-कभी अनुमानित दर समानता भी कहा जाता है.
अनुमानित समानता के बारे में ज़्यादा जानकारी के लिए, "निष्पक्षता की परिभाषाएं एक्सप्लेन्ड" (सेक्शन 3.2.1) देखें.
अनुमानित दर की समानता
अनुमानित समानता का एक और नाम है.
प्री-प्रोसेसिंग
किसी मॉडल को ट्रेनिंग देने के लिए, इस्तेमाल किए जाने से पहले डेटा को प्रोसेस किया जा रहा है. प्री-प्रोसेसिंग, किसी अंग्रेज़ी टेक्स्ट संग्रह से शब्दों को हटाने जितना आसान हो सकती है, जो अंग्रेज़ी शब्दकोश में मौजूद नहीं होते. इसके अलावा, यह डेटा पॉइंट को इस तरह बताने जितना मुश्किल भी हो सकता है कि संवेदनशील एट्रिब्यूट से जुड़े एट्रिब्यूट को हटा दिया जाए. प्रीप्रोसेसिंग से, निष्पक्षता से जुड़ी शर्तों को पूरा करने में मदद मिल सकती है.प्रॉक्सी (संवेदनशील विशेषताएं)
संवेदनशील एट्रिब्यूट को स्टैंड-इन के तौर पर इस्तेमाल किया जाने वाला एट्रिब्यूट. उदाहरण के लिए, किसी व्यक्ति के पिन कोड का इस्तेमाल, उसकी आय, नस्ल या जातीयता के लिए किया जा सकता है.R
रिपोर्टिंग पूर्वाग्रह
लोगों की कार्रवाइयों, नतीजों या प्रॉपर्टी के बारे में लिखने की फ़्रीक्वेंसी, उनकी असल दुनिया की फ़्रीक्वेंसी को नहीं दिखाती है. इसके अलावा, इससे यह नहीं पता चलता है कि प्रॉपर्टी से किसी खास समूह के लोगों में कितनी जानकारी मिलती है. रिपोर्टिंग पूर्वाग्रह उस डेटा के स्ट्रक्चर पर असर डाल सकता है जिससे मशीन लर्निंग सिस्टम सीखते हैं.
उदाहरण के लिए, किताबों में हंसते हुए शब्द, सांस के मुकाबले ज़्यादा प्रचलित है. किसी किताब के संग्रह से हंसने और सांस लेने की फ़्रीक्वेंसी का अनुमान लगाने वाला मशीन लर्निंग मॉडल, यह तय कर सकता है कि सांस लेने से हंसना ज़्यादा सामान्य है.
S
सैंपलिंग बायस
चुनाव में पक्षपात देखें.
चुनिंदा बायस
चुनने की प्रोसेस के कारण सैंपल डेटा से लिए गए नतीजों में गड़बड़ियां, जो डेटा में देखे गए सैंपल और नहीं देखे गए सैंपल के बीच व्यवस्थित अंतर पैदा करती हैं. चुनने से जुड़े इस तरह के पूर्वाग्रह इस तरह के होते हैं:
- कवरेज बायस: डेटासेट में दिखाई गई जनसंख्या, उस जनसंख्या से मेल नहीं खाती जिसके बारे में मशीन लर्निंग मॉडल अनुमान लगा रहा है.
- सैंपलिंग बायस: टारगेट ग्रुप से किसी भी क्रम में डेटा इकट्ठा नहीं किया जाता.
- नॉन-रिस्पॉन्स बायस (इसे हिस्सा लेने वाले पक्षपात भी कहा जाता है): कुछ खास ग्रुप के उपयोगकर्ता, अन्य ग्रुप के उपयोगकर्ताओं की तुलना में अलग-अलग रेट पर सर्वे से ऑप्ट-आउट कर देते हैं.
उदाहरण के लिए, मान लें कि आपको एक मशीन लर्निंग मॉडल बनाना है जो यह अनुमान लगाता है कि लोग कोई फ़िल्म पसंद कर सकते हैं या नहीं. ट्रेनिंग का डेटा इकट्ठा करने के लिए, आपको थिएटर की सबसे पहली पंक्ति में मौजूद सभी लोगों को एक सर्वे देना होता है. भले ही, यह डेटासेट इकट्ठा करने का एक उचित तरीका लग सकता है, लेकिन डेटा इकट्ठा करने के इस तरीके की वजह से चुनने में अंतर हो सकता है:
- कवरेज पूर्वाग्रह: ऐसे लोगों से नमूना लेने पर, जिन्होंने फ़िल्म देखने का विकल्प चुना है, हो सकता है कि आपके मॉडल के अनुमान उन लोगों को सामान्य न बना पाएं जिन्होंने पहले फ़िल्म में अपनी रुचि नहीं दिखाई थी.
- सैंपलिंग में पक्षपात: अनुमानित जनसंख्या (फ़िल्म में सभी लोग) से रैंडम तरीके से सैंपलिंग करने के बजाय, आपने सिर्फ़ सबसे पहली लाइन में मौजूद लोगों से सैंपल लिए. ऐसा हो सकता है कि पहली पंक्ति में बैठे लोगों को फ़िल्म में दूसरी पंक्तियों के मुकाबले ज़्यादा दिलचस्पी हो.
- गैर-प्रतिक्रिया वाला पूर्वाग्रह: आम तौर पर, मज़बूत विचारों वाले लोगों की थोड़ी-बहुत राय रखने वाले लोगों की तुलना में, वैकल्पिक सर्वे में ज़्यादा जवाब दिए जाते हैं. फ़िल्म सर्वे ज़रूरी नहीं है. इसलिए, सामान्य (घंटी के आकार का) डिस्ट्रिब्यूशन की तुलना में, रिस्पॉन्स से बायोमोडल डिस्ट्रिब्यूशन बनने की संभावना ज़्यादा होती है.
संवेदनशील एट्रिब्यूट
ऐसी मानवीय विशेषता जिसे कानूनी, नैतिक, सामाजिक या निजी वजहों पर खास ध्यान दिया जा सकता है.U
अनजाने में (संवेदनशील विशेषता के लिए)
ऐसी स्थिति जिसमें संवेदनशील एट्रिब्यूट मौजूद होते हैं, लेकिन ट्रेनिंग डेटा में शामिल नहीं किए जाते. संवेदनशील एट्रिब्यूट अक्सर, किसी व्यक्ति के डेटा के अन्य एट्रिब्यूट से जुड़े होते हैं. इसलिए, किसी संवेदनशील एट्रिब्यूट के बारे में बिना जानकारी के तैयार किए गए मॉडल का, उस एट्रिब्यूट को अब भी अलग-अलग तरह से असर पड़ सकता है या अन्य फ़ेयरनेस कंस्ट्रेंट का उल्लंघन हो सकता है.