इस पेज पर, ज़िम्मेदारी से काम करने वाले एआई (AI) के शब्दों की शब्दावली दी गई है. सभी शब्दावली के लिए, यहां क्लिक करें.
A
एट्रिब्यूट
feature के लिए समानार्थी शब्द.
मशीन लर्निंग में निष्पक्षता के लिए, एट्रिब्यूट का मतलब अक्सर लोगों की विशेषताओं से होता है.
ऑटोमेशन बायस
जब फ़ैसला लेने वाला कोई व्यक्ति, ऑटोमेटेड फ़ैसले लेने वाले सिस्टम की ओर से दिए गए सुझावों को, बिना ऑटोमेशन के तैयार की गई जानकारी के मुकाबले ज़्यादा अहमियत देता है. ऐसा तब भी होता है, जब ऑटोमेटेड फ़ैसले लेने वाला सिस्टम गलतियां करता है.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पूर्वाग्रह के टाइप देखें.
B
पक्षपात (नीतिशास्त्र/निष्पक्षता)
1. किसी चीज़, व्यक्ति या ग्रुप को दूसरों से बेहतर बताना या उनके बारे में पूर्वाग्रह रखना. इन पूर्वाग्रहों का असर, डेटा इकट्ठा करने और उसकी व्याख्या करने, सिस्टम के डिज़ाइन, और उपयोगकर्ताओं के सिस्टम से इंटरैक्ट करने के तरीके पर पड़ सकता है. इस तरह के पूर्वाग्रह के उदाहरणों में ये शामिल हैं:
- ऑटोमेशन बायस
- कंफ़र्मेशन बायस
- एक्सपेरिमेंटर का पूर्वाग्रह
- ग्रुप एट्रिब्यूशन बायस
- अनजाने में भेदभाव करना
- इन-ग्रुप बायस
- आउट-ग्रुप होमोजेनिटी बायस
2. सैंपलिंग या रिपोर्टिंग की प्रोसेस की वजह से हुई सिस्टमैटिक गड़बड़ी. इस तरह के पूर्वाग्रह के उदाहरणों में ये शामिल हैं:
- कवरेज से जुड़ा पूर्वाग्रह
- नॉन-रिस्पॉन्स बायस
- हिस्सा लेने से जुड़ा पूर्वाग्रह
- रिपोर्टिंग बायस
- सैंपलिंग बायस
- सैंपल चुनने में होने वाला पक्षपात
इसे मशीन लर्निंग मॉडल में मौजूद बायस टर्म या पूर्वानुमान में भेदभाव से भ्रमित नहीं होना चाहिए.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पूर्वाग्रह के टाइप देखें.
C
कंफ़र्मेशन बायस
किसी जानकारी को इस तरह से खोजना, समझना, उसके पक्ष में तर्क देना, और उसे याद रखना कि वह पहले से मौजूद मान्यताओं या अनुमानों की पुष्टि करे. मशीन लर्निंग डेवलपर, अनजाने में डेटा को इस तरह से इकट्ठा या लेबल कर सकते हैं जिससे उनके मौजूदा विचारों के मुताबिक नतीजे मिलें. कंफ़र्मेशन बायस, अचेतन पूर्वाग्रह का एक रूप है.
एक्सपेरिमेंट करने वाले व्यक्ति का पूर्वाग्रह, पुष्टि करने वाले पूर्वाग्रह का एक रूप है. इसमें एक्सपेरिमेंट करने वाला व्यक्ति, मॉडल को तब तक ट्रेनिंग देता रहता है, जब तक कि पहले से मौजूद किसी हाइपोथेसिस की पुष्टि न हो जाए.
काउंटरफ़ैक्चुअल फ़ेयरनेस
यह एक निष्पक्षता मेट्रिक है. इससे यह पता चलता है कि क्या क्लासिफ़िकेशन मॉडल, एक व्यक्ति के लिए वही नतीजा देता है जो वह दूसरे व्यक्ति के लिए देता है. हालांकि, दूसरा व्यक्ति पहले व्यक्ति जैसा ही होता है. इसमें एक या उससे ज़्यादा संवेदनशील एट्रिब्यूट को छोड़कर, बाकी सभी एट्रिब्यूट एक जैसे होते हैं. क्लासिफ़िकेशन मॉडल का आकलन करके, यह पता लगाया जा सकता है कि मॉडल में भेदभाव के संभावित सोर्स कौनसे हैं.
ज़्यादा जानकारी के लिए, इनमें से कोई एक लेख पढ़ें:
- मशीन लर्निंग क्रैश कोर्स में, निष्पक्षता: काउंटरफ़ैक्चुअल निष्पक्षता के बारे में जानें.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
कवरेज बायस
चुने जाने का पूर्वाग्रह देखें.
D
डेमोग्राफ़िक पैरिटी
यह एक निष्पक्षता मेट्रिक है. अगर किसी मॉडल के क्लासिफ़िकेशन के नतीजे, दिए गए संवेदनशील एट्रिब्यूट पर निर्भर नहीं करते हैं, तो यह मेट्रिक पूरी होती है.
उदाहरण के लिए, अगर ग्लबडबड्रिब यूनिवर्सिटी में लिलीपुटियन और ब्रॉबडिंगनैगियन, दोनों आवेदन करते हैं, तो डेमोग्राफ़िक पैरिटी तब हासिल होती है, जब लिलीपुटियन और ब्रॉबडिंगनैगियन, दोनों को बराबर संख्या में दाखिला मिलता है. भले ही, एक ग्रुप दूसरे ग्रुप की तुलना में ज़्यादा योग्य हो.
इसकी तुलना समान अवसर और समान संभावना से करें. ये दोनों, क्लासिफ़िकेशन के कुल नतीजों को संवेदनशील एट्रिब्यूट पर निर्भर रहने की अनुमति देते हैं. हालांकि, ये ग्राउंड ट्रुथ के कुछ खास लेबल के लिए, क्लासिफ़िकेशन के नतीजों को संवेदनशील एट्रिब्यूट पर निर्भर रहने की अनुमति नहीं देते. डेमोग्राफ़िक समानता के लिए ऑप्टिमाइज़ करते समय, ट्रेडऑफ़ के बारे में जानने के लिए, "स्मार्ट मशीन लर्निंग की मदद से भेदभाव को खत्म करना" लेख में दिया गया विज़ुअलाइज़ेशन देखें.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: डेमोग्राफ़िक समानता देखें.
अलग-अलग असर
लोगों के बारे में ऐसे फ़ैसले लेना जिनसे जनसंख्या के अलग-अलग उपसमूहों पर काफ़ी असर पड़ता है. आम तौर पर, इसका मतलब ऐसी स्थितियों से होता है जहां एल्गोरिदम के आधार पर लिए गए फ़ैसले से, कुछ उपसमूहों को दूसरों की तुलना में ज़्यादा फ़ायदा या नुकसान होता है.
उदाहरण के लिए, मान लें कि कोई एल्गोरिदम, किसी व्यक्ति के छोटे घर के लिए लिए जाने वाले होम लोन की ज़रूरी शर्तें पूरी करने की स्थिति का पता लगाता है. अगर उसके पते में कोई खास पिन कोड है, तो हो सकता है कि वह एल्गोरिदम उसे "ज़रूरी शर्तें पूरी नहीं करता" के तौर पर क्लासिफ़ाई करे. अगर बिग-एंडियन लिलिपुटियन के पास लिटिल-एंडियन लिलिपुटियन की तुलना में इस पिन कोड वाले ज़्यादा पते हैं, तो इस एल्गोरिदम का असर अलग-अलग हो सकता है.
अलग-अलग तरह का व्यवहार से तुलना करें. इसमें उन असमानताओं पर फ़ोकस किया जाता है जो तब होती हैं, जब किसी एल्गोरिदम के फ़ैसले लेने की प्रोसेस में, सबग्रुप की विशेषताओं को साफ़ तौर पर इनपुट के तौर पर इस्तेमाल किया जाता है.
अलग-अलग व्यवहार
किसी एल्गोरिथम के फ़ैसले लेने की प्रोसेस में, विषयों के संवेदनशील एट्रिब्यूट को ध्यान में रखना. इससे लोगों के अलग-अलग सबग्रुप के साथ अलग-अलग व्यवहार किया जाता है.
उदाहरण के लिए, मान लें कि कोई एल्गोरिदम, बौनों के लिए छोटे घर के क़र्ज़ की ज़रूरी शर्तें तय करता है. इसके लिए, वह क़र्ज़ के आवेदन में दिए गए डेटा का इस्तेमाल करता है. अगर एल्गोरिदम, इनपुट के तौर पर Lilliputian के अफ़िलिएशन का इस्तेमाल Big-Endian या Little-Endian के तौर पर करता है, तो वह उस डाइमेंशन के हिसाब से अलग-अलग तरह से काम कर रहा है.
अलग-अलग असर से तुलना करें. यह एल्गोरिदम के फ़ैसलों के सामाजिक असर में होने वाले अंतर पर फ़ोकस करता है. भले ही, वे सबग्रुप मॉडल के इनपुट हों या न हों.
E
समान अवसर
निष्पक्षता मेट्रिक का इस्तेमाल यह आकलन करने के लिए किया जाता है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, एक जैसा और सही अनुमान लगा रहा है या नहीं. दूसरे शब्दों में कहें, तो अगर किसी मॉडल के लिए पॉज़िटिव क्लास सबसे सही नतीजा है, तो सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट एक जैसा होना चाहिए.
अवसर की समानता, समान ऑड्स से जुड़ी होती है. इसके लिए, यह ज़रूरी है कि सभी ग्रुप के लिए, दोनों ट्रू पॉज़िटिव रेट और फ़ॉल्स पॉज़िटिव रेट एक जैसे हों.
मान लें कि ग्लबडबड्रिब यूनिवर्सिटी, गणित के एक मुश्किल प्रोग्राम में लिलीपुटियन और ब्रॉबडिंगनैगियन, दोनों को दाखिला देती है. लिलिपुटियन के सेकंडरी स्कूलों में, गणित की क्लास के लिए एक मज़बूत पाठ्यक्रम उपलब्ध कराया जाता है. साथ ही, ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी प्रोग्राम के लिए ज़रूरी शर्तें पूरी करते हैं. ब्रॉबडिंगनैग के सेकंडरी स्कूलों में गणित की क्लास नहीं होती हैं. इसलिए, वहां के बहुत कम छात्र-छात्राएं गणित की परीक्षा पास कर पाते हैं. अगर योग्य छात्र-छात्राओं को उनकी राष्ट्रीयता (लिलिपुटियन या ब्रॉबडिंगनैगियन) के आधार पर भेदभाव किए बिना बराबर मौके दिए जाते हैं, तो यह माना जाएगा कि "स्वीकार किया गया" लेबल के लिए, अवसर की समानता की शर्त पूरी की गई है.
उदाहरण के लिए, मान लें कि ग्लबडबड्रिब यूनिवर्सिटी में 100 लिलिपुटियन और 100 ब्रॉबडिंगनैगियन ने आवेदन किया है. इसके बाद, एडमिशन के फ़ैसले इस तरह लिए जाते हैं:
पहली टेबल. छोटे कारोबारों के लिए आवेदन करने वाले लोग या कंपनियां (इनमें से 90% ने ज़रूरी शर्तें पूरी की हैं)
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 45 | 3 |
अस्वीकार किया गया | 45 | 7 |
कुल | 90 | 10 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं में से चुने गए छात्र-छात्राओं का प्रतिशत: 45/90 = 50% ज़रूरी शर्तें पूरी न करने वाले छात्र-छात्राओं में से अस्वीकार किए गए छात्र-छात्राओं का प्रतिशत: 7/10 = 70% लिलिपुटियन स्कूल में चुने गए छात्र-छात्राओं का कुल प्रतिशत: (45+3)/100 = 48% |
टेबल 2. बहुत ज़्यादा आवेदन करने वाले लोग (इनमें से 10% लोग ज़रूरी शर्तें पूरी करते हैं):
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 5 | 9 |
अस्वीकार किया गया | 5 | 81 |
कुल | 10 | 90 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं में से दाखिला पाने वालों का प्रतिशत: 5/10 = 50% ज़रूरी शर्तें पूरी न करने वाले छात्र-छात्राओं में से दाखिला न पाने वालों का प्रतिशत: 81/90 = 90% ब्रॉबडिंगनैगियन छात्र-छात्राओं में से दाखिला पाने वालों का कुल प्रतिशत: (5+9)/100 = 14% |
ऊपर दिए गए उदाहरणों में, ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं को बराबर का मौका दिया गया है. ऐसा इसलिए, क्योंकि ज़रूरी शर्तें पूरी करने वाले Lilliputians और Brobdingnagians, दोनों के पास 50% संभावना है कि उन्हें दाखिला मिल जाए.
अवसर की समानता की शर्त पूरी होती है, लेकिन निष्पक्षता से जुड़ी ये दो शर्तें पूरी नहीं होतीं:
- जनसांख्यिकी समानता: लिलिपुटियन और ब्रॉबडिंगनैगियन को अलग-अलग दरों पर यूनिवर्सिटी में दाखिला मिलता है; 48% लिलिपुटियन छात्र-छात्राओं को दाखिला मिलता है, लेकिन सिर्फ़ 14% ब्रॉबडिंगनैगियन छात्र-छात्राओं को दाखिला मिलता है.
- समान अवसर: ज़रूरी शर्तें पूरी करने वाले लिलीपुटियन और ब्रॉबडिंगनैगियन, दोनों तरह के छात्र-छात्राओं को दाखिला मिलने की संभावना बराबर होती है. हालांकि, ज़रूरी शर्तें पूरी न करने वाले लिलीपुटियन और ब्रॉबडिंगनैगियन, दोनों तरह के छात्र-छात्राओं को अस्वीकार किए जाने की संभावना बराबर होने की अतिरिक्त शर्त पूरी नहीं होती. ज़रूरी शर्तें पूरी न करने वाले Lilliputians के लिए, अस्वीकार किए जाने की दर 70% है. वहीं, ज़रूरी शर्तें पूरी न करने वाले Brobdingnagians के लिए, अस्वीकार किए जाने की दर 90% है.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: अवसर की समानता देखें.
ऑड बराबर करना
यह निष्पक्षता से जुड़ी मेट्रिक है. इससे यह आकलन किया जाता है कि कोई मॉडल, संवेदनशील एट्रिब्यूट की सभी वैल्यू के लिए, एक जैसे नतीजे दे रहा है या नहीं. साथ ही, यह भी आकलन किया जाता है कि मॉडल, पॉज़िटिव क्लास और नेगेटिव क्लास, दोनों के लिए एक जैसे नतीजे दे रहा है या नहीं. ऐसा नहीं होना चाहिए कि मॉडल, सिर्फ़ एक क्लास के लिए नतीजे दे रहा हो. दूसरे शब्दों में कहें, तो सभी ग्रुप के लिए ट्रू पॉज़िटिव रेट और फ़ॉल्स नेगेटिव रेट एक जैसा होना चाहिए.
समान अवसर, अवसर की समानता से जुड़ा है. यह सिर्फ़ एक क्लास (पॉज़िटिव या नेगेटिव) के लिए गड़बड़ी की दरों पर फ़ोकस करता है.
उदाहरण के लिए, मान लें कि ग्लबडबड्रिब यूनिवर्सिटी, गणित के एक मुश्किल प्रोग्राम में लिलीपुटियन और ब्रॉबडिंगनैगियन, दोनों को दाखिला देती है. लिलिपुटियन के सेकंडरी स्कूलों में, गणित की क्लास के लिए एक मज़बूत पाठ्यक्रम उपलब्ध कराया जाता है. साथ ही, ज़्यादातर छात्र-छात्राएं यूनिवर्सिटी प्रोग्राम के लिए ज़रूरी शर्तें पूरी करते हैं. ब्रॉबडिंगनैग के सेकंडरी स्कूलों में गणित की क्लास नहीं होती हैं. इसलिए, वहां के बहुत कम छात्र-छात्राएं गणित में पास हो पाते हैं. 'समान अवसर' की शर्त तब पूरी होती है, जब कोई भी व्यक्ति आवेदन करे, चाहे वह बौना हो या विशालकाय, अगर वह ज़रूरी शर्तें पूरी करता है, तो उसे प्रोग्राम में शामिल होने का समान अवसर मिलता है. वहीं, अगर वह ज़रूरी शर्तें पूरी नहीं करता है, तो उसे अस्वीकार किए जाने की संभावना भी समान होती है.
मान लें कि ग्लबडबड्रिब यूनिवर्सिटी में 100 लिलिपुटियन और 100 ब्रॉबडिंगनैगियन ने आवेदन किया है. साथ ही, एडमिशन के फ़ैसले इस तरह लिए गए हैं:
तीसरी टेबल. छोटे कारोबारों के लिए आवेदन करने वाले लोग या कंपनियां (इनमें से 90% ने ज़रूरी शर्तें पूरी की हैं)
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 45 | 2 |
अस्वीकार किया गया | 45 | 8 |
कुल | 90 | 10 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं में से, दाखिला पाने वाले छात्र-छात्राओं का प्रतिशत: 45/90 = 50% ज़रूरी शर्तें पूरी न करने वाले छात्र-छात्राओं में से, दाखिला न पाने वाले छात्र-छात्राओं का प्रतिशत: 8/10 = 80% लिलिपुटियन स्कूल में दाखिला पाने वाले छात्र-छात्राओं का कुल प्रतिशत: (45+2)/100 = 47% |
चौथी टेबल. बहुत ज़्यादा आवेदन करने वाले लोग (इनमें से 10% लोग ज़रूरी शर्तें पूरी करते हैं):
क्वालिफ़ाई हुई | अयोग्य | |
---|---|---|
स्वीकार किया गया | 5 | 18 |
अस्वीकार किया गया | 5 | 72 |
कुल | 10 | 90 |
ज़रूरी शर्तें पूरी करने वाले छात्र-छात्राओं में से चुने गए छात्र-छात्राओं का प्रतिशत: 5/10 = 50% ज़रूरी शर्तें पूरी न करने वाले छात्र-छात्राओं में से अस्वीकार किए गए छात्र-छात्राओं का प्रतिशत: 72/90 = 80% ब्रॉबडिंगनैगियन स्कूल में चुने गए छात्र-छात्राओं का कुल प्रतिशत: (5+18)/100 = 23% |
'समान अवसर' सिद्धांत का पालन किया गया है, क्योंकि परीक्षा पास करने वाले लिलिपुटियन और ब्रॉबडिंग्नैगियन, दोनों छात्रों को 50% संभावना के साथ दाखिला मिल सकता है. वहीं, परीक्षा पास न करने वाले लिलिपुटियन और ब्रॉबडिंग्नैगियन, दोनों छात्रों को 80% संभावना के साथ अस्वीकार किया जा सकता है.
"Equality of Opportunity in Supervised Learning" में, इक्वल ऑड्स को इस तरह से औपचारिक तौर पर परिभाषित किया गया है: "अगर Ŷ और A, Y के आधार पर एक-दूसरे से अलग हैं, तो इसका मतलब है कि अनुमान लगाने वाले Ŷ ने सुरक्षित एट्रिब्यूट A और नतीजे Y के हिसाब से इक्वल ऑड्स की शर्त पूरी की है."
एक्सपेरिमेंट करने वाले व्यक्ति का पूर्वाग्रह
कंफ़र्मेशन बायस के बारे में जानें.
F
निष्पक्षता से जुड़ी शर्त
किसी एल्गोरिदम पर पाबंदी लगाना, ताकि यह पक्का किया जा सके कि निष्पक्षता की एक या उससे ज़्यादा परिभाषाएं पूरी की गई हैं. निष्पक्षता से जुड़ी शर्तों के उदाहरण:- अपने मॉडल के आउटपुट की पोस्ट-प्रोसेसिंग करें.
- निष्पक्षता मेट्रिक का उल्लंघन करने पर, जुर्माना शामिल करने के लिए लॉस फ़ंक्शन में बदलाव करना.
- ऑप्टिमाइज़ेशन की समस्या में सीधे तौर पर गणितीय बाधा जोड़ना.
निष्पक्षता मेट्रिक
"निष्पक्षता" की गणितीय परिभाषा, जिसे मापा जा सकता है. आम तौर पर इस्तेमाल की जाने वाली निष्पक्षता मेट्रिक में ये शामिल हैं:
निष्पक्षता से जुड़ी कई मेट्रिक एक-दूसरे से अलग होती हैं. निष्पक्षता से जुड़ी मेट्रिक का एक-दूसरे के साथ काम न करना लेख पढ़ें.
G
ग्रुप एट्रिब्यूशन बायस
यह मान लेना कि किसी व्यक्ति के लिए जो सही है वह उस ग्रुप के सभी लोगों के लिए भी सही है. अगर डेटा इकट्ठा करने के लिए, सुविधा के हिसाब से सैंपलिंग का इस्तेमाल किया जाता है, तो ग्रुप एट्रिब्यूशन बायस के असर और बढ़ सकते हैं. प्रतिनिधि सैंपल न होने पर, ऐसे एट्रिब्यूशन किए जा सकते हैं जो असलियत को नहीं दिखाते.
आउट-ग्रुप होमोजेनिटी बायस और इन-ग्रुप बायस भी देखें. ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पूर्वाग्रह के टाइप भी देखें.
H
ऐतिहासिक पूर्वाग्रह
यह एक तरह का पूर्वाग्रह है, जो दुनिया में पहले से मौजूद है और डेटासेट में शामिल हो गया है. इन पूर्वाग्रहों में, मौजूदा सांस्कृतिक रूढ़ियों, जनसांख्यिकी असमानताओं, और कुछ सामाजिक समूहों के ख़िलाफ़ पूर्वाग्रहों को दिखाने की प्रवृत्ति होती है.
उदाहरण के लिए, क्लासिफ़िकेशन मॉडल पर विचार करें. यह मॉडल, क़र्ज़ के लिए आवेदन करने वाले व्यक्ति के डिफ़ॉल्ट होने की संभावना का अनुमान लगाता है. इसे 1980 के दशक के क़र्ज़ के डिफ़ॉल्ट डेटा पर ट्रेन किया गया था. यह डेटा, दो अलग-अलग समुदायों के स्थानीय बैंकों से मिला था. अगर कम्यूनिटी A के पिछले आवेदकों के, कम्यूनिटी B के आवेदकों की तुलना में छह गुना ज़्यादा डिफ़ॉल्ट करने की संभावना थी, तो मॉडल को ऐतिहासिक पूर्वाग्रह का पता चल सकता है. इससे कम्यूनिटी A में मॉडल के, कर्ज़ को मंज़ूरी देने की संभावना कम हो सकती है. भले ही, कम्यूनिटी A में डिफ़ॉल्ट की ज़्यादा दरों के लिए ज़िम्मेदार ऐतिहासिक स्थितियां अब मौजूद न हों.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पूर्वाग्रह के टाइप देखें.
I
अनजाने में भेदभाव करना
किसी व्यक्ति के दिमाग़ी मॉडल और यादों के आधार पर, अपने-आप कोई अनुमान लगाना या किसी चीज़ को जोड़ना. अचेतन पूर्वाग्रह की वजह से, इन पर असर पड़ सकता है:
- डेटा को कैसे इकट्ठा और कैटगरी में बांटा जाता है.
- मशीन लर्निंग सिस्टम को कैसे डिज़ाइन और डेवलप किया जाता है.
उदाहरण के लिए, शादी की फ़ोटो की पहचान करने के लिए क्लासिफ़िकेशन मॉडल बनाते समय, कोई इंजीनियर फ़ोटो में सफ़ेद ड्रेस की मौजूदगी को एक सुविधा के तौर पर इस्तेमाल कर सकता है. हालांकि, सफ़ेद रंग की ड्रेस पहनने की परंपरा सिर्फ़ कुछ समय पहले शुरू हुई है और यह कुछ संस्कृतियों में ही प्रचलित है.
पुष्टि करने का पूर्वाग्रह के बारे में भी जानें.
निष्पक्षता से जुड़ी मेट्रिक का साथ में काम न करना
इस सिद्धांत के मुताबिक, निष्पक्षता के कुछ सिद्धांत एक-दूसरे के साथ काम नहीं करते और उन्हें एक साथ लागू नहीं किया जा सकता. इस वजह से, निष्पक्षता का आकलन करने के लिए कोई एक मेट्रिक नहीं है, जिसे एमएल से जुड़ी सभी समस्याओं पर लागू किया जा सके.
हालांकि, यह निराशाजनक लग सकता है, लेकिन निष्पक्षता की मेट्रिक के काम न करने का मतलब यह नहीं है कि निष्पक्षता के लिए की गई कोशिशें बेकार हैं. इसके बजाय, इसमें यह सुझाव दिया गया है कि किसी एमएल समस्या के लिए, निष्पक्षता को कॉन्टेक्स्ट के हिसाब से तय किया जाना चाहिए. साथ ही, इसका मकसद इस्तेमाल के उदाहरणों से होने वाले नुकसान को रोकना होना चाहिए.
निष्पक्षता की मेट्रिक के मेल न खाने के बारे में ज़्यादा जानकारी के लिए, "On the (im)possibility of fairness" लेख पढ़ें.
व्यक्तिगत निष्पक्षता
यह निष्पक्षता से जुड़ी मेट्रिक है. इससे यह पता चलता है कि क्या एक जैसे लोगों को एक ही कैटगरी में रखा गया है. उदाहरण के लिए, ब्रॉबडिंगनैगियन अकैडमी, व्यक्तिगत निष्पक्षता के सिद्धांत का पालन करना चाहती है. इसके लिए, वह यह पक्का करती है कि एक जैसे ग्रेड और स्टैंडर्डाइज़्ड टेस्ट स्कोर वाले दो छात्र-छात्राओं को दाखिला मिलने की संभावना बराबर हो.
ध्यान दें कि किसी व्यक्ति के साथ निष्पक्षता से व्यवहार करना पूरी तरह से इस बात पर निर्भर करता है कि आपने "समानता" को कैसे परिभाषित किया है. इस मामले में, ग्रेड और टेस्ट स्कोर. अगर समानता की मेट्रिक में ज़रूरी जानकारी शामिल नहीं है, तो निष्पक्षता से जुड़ी नई समस्याएं पैदा हो सकती हैं. जैसे, छात्र-छात्रा के पाठ्यक्रम की गंभीरता.
व्यक्तिगत निष्पक्षता के बारे में ज़्यादा जानकारी के लिए, "Fairness Through Awareness" देखें.
इन-ग्रुप बायस
अपने ग्रुप या अपनी विशेषताओं को ज़्यादा अहमियत देना. अगर टेस्टर या रेटर, मशीन लर्निंग डेवलपर के दोस्त, परिवार या सहकर्मी हैं, तो इन-ग्रुप बायस की वजह से, प्रॉडक्ट की टेस्टिंग या डेटासेट अमान्य हो सकता है.
इन-ग्रुप बायस, ग्रुप एट्रिब्यूशन बायस का एक टाइप है. आउट-ग्रुप होमोजेनिटी बायस के बारे में भी जानें.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पूर्वाग्रह के टाइप देखें.
नहीं
नॉन-रिस्पॉन्स बायस
चुने जाने का पूर्वाग्रह देखें.
O
आउट-ग्रुप होमोजेनिटी बायस
जब किसी व्यक्ति के रवैये, मूल्यों, व्यक्तित्व की विशेषताओं, और अन्य विशेषताओं की तुलना की जाती है, तो वह अपने ग्रुप के सदस्यों की तुलना में, दूसरे ग्रुप के सदस्यों को ज़्यादा एक जैसा मानता है. इन-ग्रुप का मतलब उन लोगों से है जिनसे आप नियमित तौर पर बातचीत करते हैं; आउट-ग्रुप का मतलब उन लोगों से है जिनसे आप नियमित तौर पर बातचीत नहीं करते. अगर लोगों से आउट-ग्रुप के बारे में एट्रिब्यूट देने के लिए कहा जाता है, तो हो सकता है कि वे एट्रिब्यूट, इन-ग्रुप के लोगों के लिए बताए गए एट्रिब्यूट की तुलना में कम बारीकी से बताए गए हों और उनमें ज़्यादा स्टीरियोटाइप शामिल हों.
उदाहरण के लिए, लिलिपुटियन, दूसरे लिलिपुटियन के घरों के बारे में काफ़ी जानकारी दे सकते हैं. वे आर्किटेक्चर के स्टाइल, खिड़कियों, दरवाज़ों, और साइज़ में छोटे-छोटे अंतरों के बारे में बता सकते हैं. हालांकि, बौने लोग यह कह सकते हैं कि सभी दानव एक जैसे घरों में रहते हैं.
आउट-ग्रुप होमोजेनिटी बायस, ग्रुप एट्रिब्यूशन बायस का एक रूप है.
इन-ग्रुप बायस के बारे में भी जानें.
P
भागीदारी का पूर्वाग्रह
यह नॉन-रिस्पॉन्स बायस का समानार्थी शब्द है. चुने जाने का पूर्वाग्रह देखें.
प्रोसेस होने के बाद
मॉडल के चलने के बाद, उसके आउटपुट में बदलाव करना. पोस्ट-प्रोसेसिंग का इस्तेमाल, निष्पक्षता से जुड़ी शर्तों को लागू करने के लिए किया जा सकता है. इसके लिए, मॉडल में बदलाव करने की ज़रूरत नहीं होती.
उदाहरण के लिए, बाइनरी क्लासिफ़िकेशन मॉडल पर पोस्ट-प्रोसेसिंग लागू की जा सकती है. इसके लिए, क्लासिफ़िकेशन थ्रेशोल्ड को इस तरह से सेट किया जाता है कि किसी एट्रिब्यूट के लिए अवसर की समानता बनी रहे. इसके लिए, यह जांच की जाती है कि उस एट्रिब्यूट की सभी वैल्यू के लिए ट्रू पॉज़िटिव रेट एक जैसा है.
अनुमानित समानता
यह निष्पक्षता मेट्रिक है. इससे यह पता चलता है कि दिए गए क्लासिफ़िकेशन मॉडल के लिए, विचाराधीन सबग्रुप के लिए सटीकता की दरें बराबर हैं या नहीं.
उदाहरण के लिए, अगर कॉलेज में दाखिले का अनुमान लगाने वाले मॉडल का सटीक अनुमान लगाने का रेट, लिलिपुटियन और ब्रॉबडिंगनैगियन के लिए एक जैसा है, तो यह राष्ट्रीयता के लिए प्रेडिक्टिव पैरिटी की शर्त पूरी करेगा.
कभी-कभी, अनुमानित कीमत की समानता को अनुमानित कीमत की समानता भी कहा जाता है.
अनुमानित समानता के बारे में ज़्यादा जानकारी के लिए, "निष्पक्षता की परिभाषाएं समझाई गईं" (सेक्शन 3.2.1) देखें.
किराये की समानता के लिए अनुमानित दर
अनुमानित समानता का दूसरा नाम.
प्रीप्रोसेसिंग
डेटा को प्रोसेस करना, ताकि उसका इस्तेमाल मॉडल को ट्रेन करने के लिए किया जा सके. प्रीप्रोसेसिंग, अंग्रेज़ी के टेक्स्ट कॉर्पस से ऐसे शब्दों को हटाने जैसी आसान हो सकती है जो अंग्रेज़ी की डिक्शनरी में नहीं हैं. इसके अलावा, यह डेटा पॉइंट को इस तरह से फिर से दिखाने जैसी मुश्किल भी हो सकती है कि संवेदनशील एट्रिब्यूट से जुड़े ज़्यादा से ज़्यादा एट्रिब्यूट हटा दिए जाएं. प्रीप्रोसेसिंग से, निष्पक्षता से जुड़ी शर्तों को पूरा करने में मदद मिल सकती है.प्रॉक्सी (संवेदनशील एट्रिब्यूट)
इस एट्रिब्यूट का इस्तेमाल, संवेदनशील एट्रिब्यूट के विकल्प के तौर पर किया जाता है. उदाहरण के लिए, किसी व्यक्ति के पिन कोड का इस्तेमाल उसकी आय, जाति या नस्ल के प्रॉक्सी के तौर पर किया जा सकता है.R
रिपोर्टिंग बायस
इस बात से कोई फ़र्क़ नहीं पड़ता कि लोग कितनी बार किसी कार्रवाई, नतीजे या प्रॉपर्टी के बारे में लिखते हैं. इससे यह पता नहीं चलता कि असल दुनिया में वे कितनी बार ऐसा करते हैं या किसी प्रॉपर्टी की कितनी विशेषताएं लोगों के किसी ग्रुप से जुड़ी हैं. रिपोर्टिंग बायस से, मशीन लर्निंग सिस्टम को मिलने वाले डेटा की बनावट पर असर पड़ सकता है.
उदाहरण के लिए, किताबों में हंसा शब्द का इस्तेमाल, सांस ली शब्द के मुकाबले ज़्यादा किया जाता है. मशीन लर्निंग मॉडल, किसी किताब के कॉर्पस से हंसने और सांस लेने की फ़्रीक्वेंसी का अनुमान लगाता है. इससे यह पता चलता है कि हंसना, सांस लेने से ज़्यादा सामान्य है.
ज़्यादा जानकारी के लिए, मशीन लर्निंग क्रैश कोर्स में निष्पक्षता: पूर्वाग्रह के टाइप देखें.
S
सैंपलिंग बायस
चुने जाने का पूर्वाग्रह देखें.
चुने जाने से जुड़ा पूर्वाग्रह
सैंपल किए गए डेटा से निकाले गए नतीजों में गड़बड़ियां. ऐसा इसलिए होता है, क्योंकि डेटा को चुनने की प्रोसेस में, डेटा में मौजूद सैंपल और नहीं देखे गए सैंपल के बीच व्यवस्थित अंतर जनरेट होता है. चुने जाने के पक्ष में होने वाले ये पूर्वाग्रह मौजूद हैं:
- कवरेज से जुड़ा पूर्वाग्रह: डेटासेट में मौजूद आबादी, उस आबादी से मेल नहीं खाती जिसके बारे में मशीन लर्निंग मॉडल अनुमान लगा रहा है.
- सैंपलिंग बायस: टारगेट ग्रुप से डेटा को रैंडम तरीके से इकट्ठा नहीं किया जाता.
- जवाब न देने की वजह से होने वाला पूर्वाग्रह (इसे सर्वे में हिस्सा लेने की वजह से होने वाला पूर्वाग्रह भी कहा जाता है): कुछ ग्रुप के उपयोगकर्ता, अन्य ग्रुप के उपयोगकर्ताओं की तुलना में अलग-अलग दरों पर सर्वे से ऑप्ट-आउट करते हैं.
उदाहरण के लिए, मान लें कि आपको एक ऐसा मशीन लर्निंग मॉडल बनाना है जो यह अनुमान लगाता है कि लोगों को कोई फ़िल्म कितनी पसंद आई. ट्रेनिंग डेटा इकट्ठा करने के लिए, आपने थिएटर की पहली लाइन में बैठे सभी लोगों को एक सर्वे दिया. पहली नज़र में, यह डेटासेट इकट्ठा करने का सही तरीका लग सकता है. हालांकि, इस तरह से डेटा इकट्ठा करने पर, चुनने से जुड़ी ये समस्याएं हो सकती हैं:
- कवरेज बायस: जिन लोगों ने फ़िल्म देखने का विकल्प चुना है उनसे सैंपल लेने पर, हो सकता है कि आपका मॉडल उन लोगों के लिए सामान्य तौर पर अनुमान न लगा पाए जिन्होंने फ़िल्म में पहले से ही दिलचस्पी नहीं दिखाई है.
- सैंपलिंग बायस: आपने फ़िल्म देखने आए सभी लोगों में से रैंडम तरीके से सैंपल लेने के बजाय, सिर्फ़ पहली लाइन में बैठे लोगों से सैंपल लिया. ऐसा हो सकता है कि पहली लाइन में बैठे लोगों की दिलचस्पी, अन्य लाइनों में बैठे लोगों की तुलना में फ़िल्म में ज़्यादा हो.
- जवाब न देने की वजह से होने वाला पक्षपात: आम तौर पर, जिन लोगों की राय मज़बूत होती है वे उन लोगों की तुलना में, वैकल्पिक सर्वे में ज़्यादा बार जवाब देते हैं जिनकी राय सामान्य होती है. फ़िल्म के बारे में सर्वे करना ज़रूरी नहीं है. इसलिए, जवाबों के सामान्य (घंटी के आकार वाले) डिस्ट्रिब्यूशन के बजाय, बाइमॉडेल डिस्ट्रिब्यूशन बनने की संभावना ज़्यादा होती है.
संवेदनशील एट्रिब्यूट
यह एक मानवीय एट्रिब्यूट है. कानूनी, नैतिक, सामाजिक या निजी वजहों से इस पर खास ध्यान दिया जा सकता है.U
संवेदनशील एट्रिब्यूट के बारे में जानकारी न होना
ऐसी स्थिति जिसमें संवेदनशील एट्रिब्यूट मौजूद हैं, लेकिन उन्हें ट्रेनिंग डेटा में शामिल नहीं किया गया है. संवेदनशील एट्रिब्यूट, अक्सर किसी व्यक्ति के डेटा के अन्य एट्रिब्यूट से जुड़े होते हैं. इसलिए, किसी संवेदनशील एट्रिब्यूट के बारे में जानकारी न होने पर भी, उस एट्रिब्यूट के हिसाब से मॉडल पर अलग-अलग असर पड़ सकता है. इसके अलावा, मॉडल निष्पक्षता से जुड़ी अन्य शर्तों का उल्लंघन भी कर सकता है.