मशीन लर्निंग (एमएल) मॉडल अपने मकसद से नहीं बनाए जाते. मशीन लर्निंग के विशेषज्ञ, मॉडल को ट्रेनिंग के उदाहरणों का डेटासेट देकर उन्हें ट्रेन करते हैं. इस डेटा को उपलब्ध कराने और उसे क्यूरेट करने में मानवीय गतिविधि शामिल होने पर, मॉडल के अनुमान में पक्षपात की आशंका बढ़ सकती है.
मॉडल बनाते समय, यह जानना ज़रूरी है कि डेटा में मानवीय पक्षपात की सामान्य भावनाएं कैसे दिख सकती हैं. इससे, इन भावनाओं के असर को कम करने के लिए, पहले से ही कदम उठाए जा सकते हैं.
रिपोर्टिंग में पक्षपात
-
परिभाषा
रिपोर्टिंग में रुझान तब होता है, जब किसी डेटासेट में कैप्चर किए गए इवेंट, प्रॉपर्टी, और/या नतीजों की फ़्रीक्वेंसी, असल दुनिया में उनकी फ़्रीक्वेंसी को सटीक तौर पर नहीं दिखाती. यह पूर्वाग्रह इसलिए पैदा हो सकता है, क्योंकि लोग आम तौर पर उन परिस्थितियों को रिकॉर्ड करने पर ध्यान देते हैं जो असामान्य या खास तौर पर यादगार हों. ऐसा इसलिए होता है, क्योंकि वे मानते हैं कि सामान्य परिस्थितियों को रिकॉर्ड करने की ज़रूरत नहीं है.
-
उदाहरण
भावनाओं का विश्लेषण करने वाले मॉडल को यह अनुमान लगाने के लिए ट्रेनिंग दी गई है कि किसी किताब की समीक्षाएं अच्छी हैं या बुरी. किसी लोकप्रिय वेबसाइट पर उपयोगकर्ताओं के सबमिट किए गए कॉन्टेंट के संग्रह के आधार पर, यह अनुमान लगाया जाता है कि किताब की समीक्षाएं अच्छी हैं या बुरी. ट्रेनिंग डेटासेट में मौजूद ज़्यादातर समीक्षाओं में, ज़्यादातर लोगों की राय ज़्यादा ज़ोरदार होती है. जैसे, किसी किताब को बहुत पसंद करना या उससे बहुत नफ़रत करना. ऐसा इसलिए होता है, क्योंकि अगर लोगों को किताब पसंद या नफ़रत नहीं आती है, तो वे शायद उसकी समीक्षा सबमिट न करें. इस वजह से, मॉडल उन समीक्षाओं के बारे में सही अनुमान नहीं लगा पाता जिनमें किताब के बारे में ज़्यादा सटीक भाषा का इस्तेमाल किया गया हो.
परिभाषा के लिए, chevron_left पर क्लिक करें.
पुराने डेटा का असर
-
परिभाषा
पुराने डेटा में मौजूद पूर्वाग्रह तब होता है, जब पुराने डेटा में, उस समय दुनिया में मौजूद असमानताओं को दिखाया गया हो.
-
उदाहरण
शहर में 1960 के दशक के एक हाउसिंग डेटासेट में घर की कीमत का डेटा शामिल है. इसमें बताया गया है कि उस दशक के दौरान, क़र्ज़ देने के तरीकों में भेदभाव किया गया था.
परिभाषा देखने के लिए, chevron_left पर क्लिक करें.
ऑटोमेशन बायस
-
परिभाषा
ऑटोमेशन बायस का मतलब है, ऑटोमेटेड सिस्टम से मिले नतीजों को, बिना ऑटोमेटेड सिस्टम से मिले नतीजों के मुकाबले प्राथमिकता देना. भले ही, दोनों सिस्टम में गड़बड़ी की दर एक जैसी हो.
-
उदाहरण
स्प्रोकेट मैन्युफ़ैक्चरर के लिए काम करने वाले मशीन लर्निंग करने वाले लोग, दांत की खराबियों की पहचान करने के लिए बनाए गए नए "ग्राउंडब्रेकिंग" मॉडल को इस्तेमाल करने के लिए उत्सुक थे. फ़ैक्ट्री के सुपरवाइज़र ने बताया कि इस मॉडल की सटीक जानकारी और रीकॉल रेट, इंसानों की जांच करने वाले टूल की तुलना में 15% कम थे.
परिभाषा के लिए, chevron_left पर क्लिक करें.
चुनने में पक्षपात
चुनने से जुड़ा पक्षपात तब होता है, जब किसी डेटासेट के उदाहरण ऐसे चुने जाते हैं जो उनके असल डिस्ट्रिब्यूशन को नहीं दिखाते. चुनिंदा नमूने के आधार पर अनुमान लगाने की गड़बड़ी के कई रूप हो सकते हैं. जैसे, कवरेज में गड़बड़ी, नतीजे न मिलने की गड़बड़ी, और सैंपलिंग में गड़बड़ी.
कवरेज बायस
-
परिभाषा
कवरेज में पक्षपात तब होता है, जब डेटा को सही तरीके से नहीं चुना जाता.
-
उदाहरण
मॉडल को आने वाले समय में किसी नए प्रॉडक्ट की बिक्री का अनुमान लगाने के लिए ट्रेनिंग दी गई है. यह जानकारी पाने के लिए, फ़ोन पर किए गए सर्वे के आधार पर, प्रॉडक्ट खरीदने वाले उपभोक्ताओं के एक सैंपल की मदद ली जाती है. जिन उपभोक्ताओं ने किसी दूसरे प्रॉडक्ट को खरीदने का विकल्प चुना था उन्हें सर्वे में शामिल नहीं किया गया. इस वजह से, ट्रेनिंग डेटा में लोगों के इस ग्रुप को नहीं दिखाया गया.
परिभाषा के लिए, chevron_left पर क्लिक करें.
नॉन-रिस्पॉन्स बायस
-
परिभाषा
नॉन-रिस्पॉन्स बायस (इसे हिस्सा लेने वाले लोगों के बायस भी कहा जाता है) तब होता है, जब डेटा इकट्ठा करने की प्रोसेस में हिस्सा लेने वाले लोगों की संख्या कम होने की वजह से, डेटा सही न हो.
-
उदाहरण
मॉडल को ट्रेनिंग दी जाती है, ताकि वह किसी नए प्रॉडक्ट की बिक्री के अनुमान का पता लगा सके. यह अनुमान, फ़ोन सर्वे के आधार पर लगाया जाता है. इन सर्वे में, उन उपभोक्ताओं के नमूने का इस्तेमाल किया जाता है जिन्होंने प्रॉडक्ट खरीदा है और उन उपभोक्ताओं के नमूने का इस्तेमाल किया जाता है जिन्होंने मिलते-जुलते प्रॉडक्ट खरीदा है. प्रतिस्पर्धी प्रॉडक्ट खरीदने वाले उपभोक्ताओं के सर्वे में हिस्सा न लेने की संभावना 80% ज़्यादा थी. साथ ही, सैंपल में उनके डेटा का प्रतिनिधित्व कम था.
परिभाषा के लिए, chevron_left पर क्लिक करें.
नमूना पूर्वाग्रह
-
परिभाषा
डेटा इकट्ठा करने के दौरान, सही तरीके से रैंडमाइज़ेशन का इस्तेमाल न करने पर, सैंपलिंग में गड़बड़ी होती है.
-
उदाहरण
किसी मॉडल को नए प्रॉडक्ट की बिक्री के अनुमान के लिए ट्रेन किया जाता है. यह अनुमान, फ़ोन सर्वे के आधार पर लगाया जाता है. इन सर्वे में, प्रॉडक्ट खरीदने वाले उपभोक्ताओं के साथ-साथ, उससे मिलते-जुलते प्रॉडक्ट खरीदने वाले उपभोक्ताओं के सैंपल शामिल होते हैं. किसी भी क्रम में उपभोक्ताओं को टारगेट करने के बजाय, सर्वे करने वाले ने ईमेल का जवाब देने वाले शुरुआती 200 उपभोक्ताओं को चुना, जो शायद औसत खरीदारों की तुलना में प्रॉडक्ट को लेकर ज़्यादा उत्साहित रहे हों.
परिभाषा देखने के लिए, chevron_left पर क्लिक करें.
ग्रुप एट्रिब्यूशन बायस
ग्रुप एट्रिब्यूशन बायस की मदद से, किसी व्यक्ति के बारे में वही जानकारी दी जाती है जो पूरे ग्रुप से जुड़ी होती है. ग्रुप एट्रिब्यूशन बायस अक्सर इन दो तरीकों से दिखता है.
इन-ग्रुप बायस
-
परिभाषा
ग्रुप में मौजूद लोगों के पक्ष में झुकाव का मतलब है कि आप अपने ग्रुप के उन सदस्यों को प्राथमिकता देते हैं जिनमें आप भी शामिल हैं या उन विशेषताओं को प्राथमिकता देते हैं जो आपके ग्रुप में मौजूद लोगों में भी मौजूद हैं.
-
उदाहरण
सॉफ़्टवेयर डेवलपर के लिए, रीज़्यूमे की जांच करने वाले मॉडल को ट्रेनिंग देने वाले दो एमएल प्रैक्टिशनर, इस बात पर भरोसा करते हैं कि जिन आवेदकों ने उसी कंप्यूटर साइंस अकादमी में पढ़ाई की है जहां उन्होंने पढ़ाई की है वे इस भूमिका के लिए ज़्यादा योग्य हैं.
परिभाषा के लिए, chevron_left पर क्लिक करें.
आउट-ग्रुप होमोजेनिटी बायस
-
परिभाषा
बाहरी ग्रुप के सदस्यों के लिए एक जैसी सोच का मतलब है कि आप जिस ग्रुप से नहीं जुड़े हैं उसके सदस्यों को एक जैसा मानना या उनकी विशेषताओं को एक जैसा देखना.
-
उदाहरण
सॉफ़्टवेयर डेवलपर के लिए, रीज़्यूमे की जांच करने वाले मॉडल को ट्रेनिंग देने वाले दो एमएल प्रैक्टिशनर, इस बात से सहमत हैं कि कंप्यूटर साइंस अकादमी में हिस्सा न लेने वाले सभी आवेदकों के पास, इस भूमिका के लिए ज़रूरी विशेषज्ञता नहीं है.
परिभाषा देखने के लिए, chevron_left पर क्लिक करें.
इंप्लिसिट बायस
-
परिभाषा
अनजाने में होने वाली पक्षपात तब होता है, जब किसी व्यक्ति के अपने मॉडल और निजी अनुभवों के आधार पर, ऐसी धारणाएं बनाई जाती हैं जो ज़रूरी नहीं है कि आम तौर पर लागू हों.
-
उदाहरण
जेस्चर की पहचान करने वाले मॉडल को ट्रेनिंग देने वाला कोई मशीन लर्निंग विशेषज्ञ, सिर हिलाने की सुविधा का इस्तेमाल करके यह पता लगाता है कि कोई व्यक्ति "नहीं" बोल रहा है. हालांकि, दुनिया के कुछ इलाकों में सिर हिलाने का मतलब है कि "हां".
परिभाषा के लिए, chevron_left पर क्लिक करें.
एक पक्ष की पुष्टि करना
-
परिभाषा
पुष्टि करने के लिए पूर्वाग्रह तब होता है, जब मॉडल बनाने वाले लोग, डेटा को अनजाने में ऐसे तरीके से प्रोसेस करते हैं जिससे पहले से मौजूद मान्यताओं और अनुमानों की पुष्टि होती है.
-
उदाहरण
एमएल प्रैक्टिशनर, एक ऐसा मॉडल बना रहा है जो कुत्तों की अलग-अलग विशेषताओं (ऊंचाई, वजन, नस्ल, और पर्यावरण) के आधार पर, उनके आक्रामक होने का अनुमान लगाता है. जब वह बच्चा था, तब एक ज़्यादा सक्रिय टॉय प्यडल से उसका बुरा अनुभव रहा था. इसलिए, वह इस नस्ल को आक्रामक मानता है. मॉडल का ट्रेनिंग डेटा चुनते समय, कारोबारी ने अनजाने में उन चीज़ों को खारिज कर दिया जिनसे पता चलता था कि छोटे कुत्तों में सादगी है.
परिभाषा के लिए, chevron_left पर क्लिक करें.
एक्सपेरिमेंटर बायस
-
परिभाषा
एक्सपेरिमेंटर का पूर्वाग्रह तब होता है, जब मॉडल बिल्डर किसी मॉडल को तब तक ट्रेनिंग देता रहता है, जब तक वह ऐसा नतीजा न दे जो उसके मूल अनुमान के मुताबिक हो.
-
उदाहरण
एमएल प्रैक्टिशनर, एक ऐसा मॉडल बना रहा है जो कुत्तों की अलग-अलग विशेषताओं (ऊंचाई, वज़न, नस्ल, और पर्यावरण) के आधार पर, उनके आक्रामक होने का अनुमान लगाता है. जब वह बच्चा था, तब एक ज़्यादा सक्रिय टॉय प्यडल से उसका बुरा अनुभव रहा था. इसलिए, वह इस नस्ल को आक्रामक मानता है. जब एक प्रशिक्षित मॉडल ने अनुमान लगाया कि ज़्यादातर टॉय पूडल ज़्यादा विनम्र हैं, तो उस कारोबारी ने मॉडल को कई बार और फिर से ट्रेनिंग दी. ऐसा तब तक किया गया, जब तक ऐसा नहीं हुआ कि छोटे पूडल ज़्यादा हिंसक हों.
परिभाषा के लिए, chevron_left पर क्लिक करें.