इस पेज का अनुवाद Cloud Translation API से किया गया है.

निष्पक्षता: भेदभाव के टाइप

मशीन लर्निंग (एमएल) मॉडल अपने मकसद से नहीं बनाए जाते. मशीन लर्निंग के विशेषज्ञ, मॉडल को ट्रेनिंग के उदाहरणों का डेटासेट देकर उन्हें ट्रेन करते हैं. इस डेटा को उपलब्ध कराने और उसे क्यूरेट करने में मानवीय गतिविधि शामिल होने पर, मॉडल के अनुमान में पक्षपात की आशंका बढ़ सकती है.

मॉडल बनाते समय, यह जानना ज़रूरी है कि डेटा में मानवीय पक्षपात की सामान्य भावनाएं कैसे दिख सकती हैं. इससे, इन भावनाओं के असर को कम करने के लिए, पहले से ही कदम उठाए जा सकते हैं.

ध्यान दें: यहां दी गई, बायस की इन्वेंट्री में, बायस के कुछ उदाहरण दिए गए हैं. ये ऐसे उदाहरण हैं जो अक्सर मशीन लर्निंग डेटासेट में दिखते हैं. इस सूची में सभी उदाहरण शामिल नहीं हैं. Wikipedia के संज्ञानात्मक पूर्वाग्रहों की सूची में 100 से ज़्यादा तरह के मानवीय पूर्वाग्रहों की गिनती की गई है, जो हमारे फ़ैसले पर असर डाल सकती हैं. अपने डेटा की ऑडिटिंग करते समय, पक्षपात के सभी संभावित सोर्स से सावधान रहें. इनकी वजह से, आपके मॉडल के अनुमान गलत हो सकते हैं.

रिपोर्टिंग में पक्षपात

परिभाषा

रिपोर्टिंग में रुझान तब होता है, जब किसी डेटासेट में कैप्चर किए गए इवेंट, प्रॉपर्टी, और/या नतीजों की फ़्रीक्वेंसी, असल दुनिया में उनकी फ़्रीक्वेंसी को सटीक तौर पर नहीं दिखाती. यह पूर्वाग्रह इसलिए पैदा हो सकता है, क्योंकि लोग आम तौर पर उन परिस्थितियों को रिकॉर्ड करने पर ध्यान देते हैं जो असामान्य या खास तौर पर यादगार हों. ऐसा इसलिए होता है, क्योंकि वे मानते हैं कि सामान्य परिस्थितियों को रिकॉर्ड करने की ज़रूरत नहीं है.

उदाहरण के लिए chevron_right पर क्लिक करें.
उदाहरण

भावनाओं का विश्लेषण करने वाले मॉडल को यह अनुमान लगाने के लिए ट्रेनिंग दी गई है कि किसी किताब की समीक्षाएं अच्छी हैं या बुरी. किसी लोकप्रिय वेबसाइट पर उपयोगकर्ताओं के सबमिट किए गए कॉन्टेंट के संग्रह के आधार पर, यह अनुमान लगाया जाता है कि किताब की समीक्षाएं अच्छी हैं या बुरी. ट्रेनिंग डेटासेट में मौजूद ज़्यादातर समीक्षाओं में, ज़्यादातर लोगों की राय ज़्यादा ज़ोरदार होती है. जैसे, किसी किताब को बहुत पसंद करना या उससे बहुत नफ़रत करना. ऐसा इसलिए होता है, क्योंकि अगर लोगों को किताब पसंद या नफ़रत नहीं आती है, तो वे शायद उसकी समीक्षा सबमिट न करें. इस वजह से, मॉडल उन समीक्षाओं के बारे में सही अनुमान नहीं लगा पाता जिनमें किताब के बारे में ज़्यादा सटीक भाषा का इस्तेमाल किया गया हो.

परिभाषा के लिए, chevron_left पर क्लिक करें.

पुराने डेटा का असर

परिभाषा

पुराने डेटा में मौजूद पूर्वाग्रह तब होता है, जब पुराने डेटा में, उस समय दुनिया में मौजूद असमानताओं को दिखाया गया हो.

उदाहरण के लिए, chevron_right पर क्लिक करें
उदाहरण

शहर में 1960 के दशक के एक हाउसिंग डेटासेट में घर की कीमत का डेटा शामिल है. इसमें बताया गया है कि उस दशक के दौरान, क़र्ज़ देने के तरीकों में भेदभाव किया गया था.

परिभाषा देखने के लिए, chevron_left पर क्लिक करें.

ऑटोमेशन बायस

परिभाषा

ऑटोमेशन बायस का मतलब है, ऑटोमेटेड सिस्टम से मिले नतीजों को, बिना ऑटोमेटेड सिस्टम से मिले नतीजों के मुकाबले प्राथमिकता देना. भले ही, दोनों सिस्टम में गड़बड़ी की दर एक जैसी हो.

उदाहरण के लिए, chevron_right पर क्लिक करें
उदाहरण

स्प्रोकेट मैन्युफ़ैक्चरर के लिए काम करने वाले मशीन लर्निंग करने वाले लोग, दांत की खराबियों की पहचान करने के लिए बनाए गए नए "ग्राउंडब्रेकिंग" मॉडल को इस्तेमाल करने के लिए उत्सुक थे. फ़ैक्ट्री के सुपरवाइज़र ने बताया कि इस मॉडल की सटीक जानकारी और रीकॉल रेट, इंसानों की जांच करने वाले टूल की तुलना में 15% कम थे.

परिभाषा के लिए, chevron_left पर क्लिक करें.

चुनने में पक्षपात

चुनने से जुड़ा पक्षपात तब होता है, जब किसी डेटासेट के उदाहरण ऐसे चुने जाते हैं जो उनके असल डिस्ट्रिब्यूशन को नहीं दिखाते. चुनिंदा नमूने के आधार पर अनुमान लगाने की गड़बड़ी के कई रूप हो सकते हैं. जैसे, कवरेज में गड़बड़ी, नतीजे न मिलने की गड़बड़ी, और सैंपलिंग में गड़बड़ी.

कवरेज बायस

परिभाषा

कवरेज में पक्षपात तब होता है, जब डेटा को सही तरीके से नहीं चुना जाता.

उदाहरण के लिए, chevron_right पर क्लिक करें
उदाहरण

मॉडल को आने वाले समय में किसी नए प्रॉडक्ट की बिक्री का अनुमान लगाने के लिए ट्रेनिंग दी गई है. यह जानकारी पाने के लिए, फ़ोन पर किए गए सर्वे के आधार पर, प्रॉडक्ट खरीदने वाले उपभोक्ताओं के एक सैंपल की मदद ली जाती है. जिन उपभोक्ताओं ने किसी दूसरे प्रॉडक्ट को खरीदने का विकल्प चुना था उन्हें सर्वे में शामिल नहीं किया गया. इस वजह से, ट्रेनिंग डेटा में लोगों के इस ग्रुप को नहीं दिखाया गया.

परिभाषा के लिए, chevron_left पर क्लिक करें.

नॉन-रिस्पॉन्स बायस

परिभाषा

नॉन-रिस्पॉन्स बायस (इसे हिस्सा लेने वाले लोगों के बायस भी कहा जाता है) तब होता है, जब डेटा इकट्ठा करने की प्रोसेस में हिस्सा लेने वाले लोगों की संख्या कम होने की वजह से, डेटा सही न हो.

उदाहरण के लिए, chevron_right पर क्लिक करें
उदाहरण

मॉडल को ट्रेनिंग दी जाती है, ताकि वह किसी नए प्रॉडक्ट की बिक्री के अनुमान का पता लगा सके. यह अनुमान, फ़ोन सर्वे के आधार पर लगाया जाता है. इन सर्वे में, उन उपभोक्ताओं के नमूने का इस्तेमाल किया जाता है जिन्होंने प्रॉडक्ट खरीदा है और उन उपभोक्ताओं के नमूने का इस्तेमाल किया जाता है जिन्होंने मिलते-जुलते प्रॉडक्ट खरीदा है. प्रतिस्पर्धी प्रॉडक्ट खरीदने वाले उपभोक्ताओं के सर्वे में हिस्सा न लेने की संभावना 80% ज़्यादा थी. साथ ही, सैंपल में उनके डेटा का प्रतिनिधित्व कम था.

परिभाषा के लिए, chevron_left पर क्लिक करें.

नमूना पूर्वाग्रह

परिभाषा

डेटा इकट्ठा करने के दौरान, सही तरीके से रैंडमाइज़ेशन का इस्तेमाल न करने पर, सैंपलिंग में गड़बड़ी होती है.

उदाहरण के लिए chevron_right पर क्लिक करें
उदाहरण

किसी मॉडल को नए प्रॉडक्ट की बिक्री के अनुमान के लिए ट्रेन किया जाता है. यह अनुमान, फ़ोन सर्वे के आधार पर लगाया जाता है. इन सर्वे में, प्रॉडक्ट खरीदने वाले उपभोक्ताओं के साथ-साथ, उससे मिलते-जुलते प्रॉडक्ट खरीदने वाले उपभोक्ताओं के सैंपल शामिल होते हैं. किसी भी क्रम में उपभोक्ताओं को टारगेट करने के बजाय, सर्वे करने वाले ने ईमेल का जवाब देने वाले शुरुआती 200 उपभोक्ताओं को चुना, जो शायद औसत खरीदारों की तुलना में प्रॉडक्ट को लेकर ज़्यादा उत्साहित रहे हों.

परिभाषा देखने के लिए, chevron_left पर क्लिक करें.

ग्रुप एट्रिब्यूशन बायस

ग्रुप एट्रिब्यूशन बायस की मदद से, किसी व्यक्ति के बारे में वही जानकारी दी जाती है जो पूरे ग्रुप से जुड़ी होती है. ग्रुप एट्रिब्यूशन बायस अक्सर इन दो तरीकों से दिखता है.

इन-ग्रुप बायस

परिभाषा

ग्रुप में मौजूद लोगों के पक्ष में झुकाव का मतलब है कि आप अपने ग्रुप के उन सदस्यों को प्राथमिकता देते हैं जिनमें आप भी शामिल हैं या उन विशेषताओं को प्राथमिकता देते हैं जो आपके ग्रुप में मौजूद लोगों में भी मौजूद हैं.

उदाहरण के लिए chevron_right पर क्लिक करें
उदाहरण

सॉफ़्टवेयर डेवलपर के लिए, रीज़्यूमे की जांच करने वाले मॉडल को ट्रेनिंग देने वाले दो एमएल प्रैक्टिशनर, इस बात पर भरोसा करते हैं कि जिन आवेदकों ने उसी कंप्यूटर साइंस अकादमी में पढ़ाई की है जहां उन्होंने पढ़ाई की है वे इस भूमिका के लिए ज़्यादा योग्य हैं.

परिभाषा के लिए, chevron_left पर क्लिक करें.

आउट-ग्रुप होमोजेनिटी बायस

परिभाषा

बाहरी ग्रुप के सदस्यों के लिए एक जैसी सोच का मतलब है कि आप जिस ग्रुप से नहीं जुड़े हैं उसके सदस्यों को एक जैसा मानना या उनकी विशेषताओं को एक जैसा देखना.

उदाहरण के लिए chevron_right पर क्लिक करें
उदाहरण

सॉफ़्टवेयर डेवलपर के लिए, रीज़्यूमे की जांच करने वाले मॉडल को ट्रेनिंग देने वाले दो एमएल प्रैक्टिशनर, इस बात से सहमत हैं कि कंप्यूटर साइंस अकादमी में हिस्सा न लेने वाले सभी आवेदकों के पास, इस भूमिका के लिए ज़रूरी विशेषज्ञता नहीं है.

परिभाषा देखने के लिए, chevron_left पर क्लिक करें.

इंप्लिसिट बायस

परिभाषा

अनजाने में होने वाली पक्षपात तब होता है, जब किसी व्यक्ति के अपने मॉडल और निजी अनुभवों के आधार पर, ऐसी धारणाएं बनाई जाती हैं जो ज़रूरी नहीं है कि आम तौर पर लागू हों.

उदाहरण के लिए, chevron_right पर क्लिक करें
उदाहरण

जेस्चर की पहचान करने वाले मॉडल को ट्रेनिंग देने वाला कोई मशीन लर्निंग विशेषज्ञ, सिर हिलाने की सुविधा का इस्तेमाल करके यह पता लगाता है कि कोई व्यक्ति "नहीं" बोल रहा है. हालांकि, दुनिया के कुछ इलाकों में सिर हिलाने का मतलब है कि "हां".

परिभाषा के लिए, chevron_left पर क्लिक करें.

एक पक्ष की पुष्टि करना

परिभाषा

पुष्टि करने के लिए पूर्वाग्रह तब होता है, जब मॉडल बनाने वाले लोग, डेटा को अनजाने में ऐसे तरीके से प्रोसेस करते हैं जिससे पहले से मौजूद मान्यताओं और अनुमानों की पुष्टि होती है.

उदाहरण के लिए, chevron_right पर क्लिक करें
उदाहरण

एमएल प्रैक्टिशनर, एक ऐसा मॉडल बना रहा है जो कुत्तों की अलग-अलग विशेषताओं (ऊंचाई, वजन, नस्ल, और पर्यावरण) के आधार पर, उनके आक्रामक होने का अनुमान लगाता है. जब वह बच्चा था, तब एक ज़्यादा सक्रिय टॉय प्यडल से उसका बुरा अनुभव रहा था. इसलिए, वह इस नस्ल को आक्रामक मानता है. मॉडल का ट्रेनिंग डेटा चुनते समय, कारोबारी ने अनजाने में उन चीज़ों को खारिज कर दिया जिनसे पता चलता था कि छोटे कुत्तों में सादगी है.

परिभाषा के लिए, chevron_left पर क्लिक करें.

एक्सपेरिमेंटर बायस

परिभाषा

एक्सपेरिमेंटर का पूर्वाग्रह तब होता है, जब मॉडल बिल्डर किसी मॉडल को तब तक ट्रेनिंग देता रहता है, जब तक वह ऐसा नतीजा न दे जो उसके मूल अनुमान के मुताबिक हो.

उदाहरण के लिए chevron_right पर क्लिक करें
उदाहरण

एमएल प्रैक्टिशनर, एक ऐसा मॉडल बना रहा है जो कुत्तों की अलग-अलग विशेषताओं (ऊंचाई, वज़न, नस्ल, और पर्यावरण) के आधार पर, उनके आक्रामक होने का अनुमान लगाता है. जब वह बच्चा था, तब एक ज़्यादा सक्रिय टॉय प्यडल से उसका बुरा अनुभव रहा था. इसलिए, वह इस नस्ल को आक्रामक मानता है. जब एक प्रशिक्षित मॉडल ने अनुमान लगाया कि ज़्यादातर टॉय पूडल ज़्यादा विनम्र हैं, तो उस कारोबारी ने मॉडल को कई बार और फिर से ट्रेनिंग दी. ऐसा तब तक किया गया, जब तक ऐसा नहीं हुआ कि छोटे पूडल ज़्यादा हिंसक हों.

परिभाषा के लिए, chevron_left पर क्लिक करें.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

शुरुआत में बताए गए कॉलेज में दाखिले के मॉडल में, इनमें से किस तरह के पूर्वाग्रह की वजह से गलत अनुमान दिए गए हो सकते हैं?

पुराने डेटा के आधार पर गलत नतीजे

ऐडमिशन मॉडल को पिछले 20 सालों के छात्र-छात्राओं के रिकॉर्ड के आधार पर ट्रेन किया गया था. अगर इस डेटा में अल्पसंख्यक छात्र-छात्राओं को कम दिखाया गया है, तो हो सकता है कि नए छात्र-छात्राओं के डेटा का अनुमान लगाते समय, इस मॉडल में पहले जैसी ही असमानताएं मौजूद हों.

इन-ग्रुप बायस

ऐडमिशन मॉडल को ट्रेन करने के लिए, विश्वविद्यालय के मौजूदा छात्र-छात्राओं का इस्तेमाल किया गया था. ऐसा हो सकता है कि वे अपने जैसे बैकग्राउंड वाले छात्र-छात्राओं को स्वीकार करने के लिए, अनजाने में प्राथमिकता देते हों. इस वजह से, उस डेटा को क्यूरेट करने या उसमें फ़ीचर इंजीनियरिंग करने के तरीके पर असर पड़ सकता है जिस पर मॉडल को ट्रेन किया गया था.

कंफ़र्मेशन बायस

ऐडमिशन मॉडल को ट्रेनिंग देने के लिए, यूनिवर्सिटी के मौजूदा छात्र-छात्राओं का इस्तेमाल किया गया. इन छात्र-छात्राओं को पहले से पता था कि कंप्यूटर साइंस प्रोग्राम में सफलता पाने के लिए, किस तरह की योग्यताएं ज़रूरी हैं. हो सकता है कि उन्होंने डेटा को गलती से क्यूरेट किया हो या उसमें बदलाव किया हो, ताकि मॉडल इन मौजूदा मान्यताओं की पुष्टि कर सके.

ऑटोमेशन बायस

ऑटोमेशन बायस की वजह से यह समझा जा सकता है कि ऐडमिशन कमिटी ने ऐडमिशन से जुड़े फ़ैसले लेने के लिए, एआई मॉडल का इस्तेमाल क्यों किया. हो सकता है कि उन्हें लगा हो कि ऑटोमेटेड सिस्टम, मनुष्यों के फ़ैसलों के मुकाबले बेहतर नतीजे देगा. हालांकि, ऑटोमेशन बायस से यह जानकारी नहीं मिलती कि मॉडल के अनुमान गलत क्यों रहे.

पीछे जाएं

जानकारी (5 मिनट)

आगे बढ़ें

पूर्वाग्रह की पहचान करना (10 मिनट)

निष्पक्षता: भेदभाव के टाइप

रिपोर्टिंग में पक्षपात

परिभाषा

उदाहरण

पुराने डेटा का असर

परिभाषा

उदाहरण

ऑटोमेशन बायस

परिभाषा

उदाहरण

चुनने में पक्षपात

कवरेज बायस

परिभाषा

उदाहरण

नॉन-रिस्पॉन्स बायस

परिभाषा

उदाहरण

नमूना पूर्वाग्रह

परिभाषा

उदाहरण

ग्रुप एट्रिब्यूशन बायस

इन-ग्रुप बायस

परिभाषा

उदाहरण

आउट-ग्रुप होमोजेनिटी बायस

परिभाषा

उदाहरण

इंप्लिसिट बायस

परिभाषा

उदाहरण

एक पक्ष की पुष्टि करना

परिभाषा

उदाहरण

एक्सपेरिमेंटर बायस

परिभाषा

उदाहरण

एक्सरसाइज़: देखें कि आपको क्या समझ आया