निष्पक्षता: पक्षपात की पहचान करना

मॉडल को ट्रेनिंग देने और उसका आकलन करने के लिए डेटा तैयार करते समय, यह ध्यान रखना ज़रूरी है कि डेटा में किसी भी तरह का पक्षपात न हो. साथ ही, पक्षपात के संभावित सोर्स का ऑडिट करना भी ज़रूरी है. इससे, मॉडल को प्रोडक्शन में रिलीज़ करने से पहले, इसके असर को कम किया जा सकता है.

पक्षपात कहां हो सकता है? यहां कुछ ऐसी चेतावनियां दी गई हैं जिन पर आपको अपने डेटासेट में ध्यान देना चाहिए.

सुविधा की वैल्यू मौजूद नहीं हैं

अगर आपके डेटासेट में एक या उससे ज़्यादा ऐसी सुविधाएं हैं जिनमें बड़ी संख्या में उदाहरणों के लिए वैल्यू मौजूद नहीं हैं, तो इसका मतलब हो सकता है कि आपके डेटासेट की कुछ मुख्य विशेषताओं को कम दिखाया गया है.

व्यायाम: अपनी समझ की जांच करें

आपने एक मॉडल को ट्रेन किया है, ताकि वह कुत्तों को गोद लेने के बारे में बता सके. यह जानकारी, कुत्तों की नस्ल, उम्र, वज़न, स्वभाव, और हर दिन उनके बालों के झड़ने की संख्या जैसी कई चीज़ों के आधार पर दी जाती है. आपका लक्ष्य यह पक्का करना है कि मॉडल, सभी तरह के कुत्तों पर एक जैसी परफ़ॉर्म करे. भले ही, उनकी शारीरिक या व्यवहार से जुड़ी विशेषताएं अलग-अलग हों

आपको पता चलता है कि ट्रेनिंग सेट में मौजूद 5,000 उदाहरणों में से 1,500 में, टेम्परेमेंट की वैल्यू मौजूद नहीं हैं. इनमें से किन संभावित सोर्स की वजह से डेटा में पक्षपात हो सकता है और आपको उनकी जांच करनी चाहिए?

12 महीने से कम उम्र के कुत्तों के लिए, तापमान का डेटा मौजूद न होने की संभावना ज़्यादा है
बड़े शहरों से बचाए गए सभी कुत्तों के लिए, स्वभाव का डेटा मौजूद नहीं है.
डेटासेट में, तापमान का डेटा बिना किसी क्रम के मौजूद नहीं है.
कुत्तों की कुछ नस्लों के लिए, स्वभाव का डेटा मौजूद न होने की संभावना ज़्यादा होती है.

सुविधा की गलत वैल्यू

डेटा की खोज करते समय, आपको ऐसे उदाहरण भी देखने चाहिए जिनमें ऐसी सुविधाएं हों जो खास तौर पर असामान्य या असामान्य. सुविधा की इन अनचाही वैल्यू से, डेटा इकट्ठा करने के दौरान हुई समस्याओं या अन्य गड़बड़ियों का पता चल सकता है. इन गड़बड़ियों की वजह से, नतीजों में पक्षपात हो सकता है.

व्यायाम: अपनी समझ की जांच करें

कुत्तों को बचाने के लिए बनाए गए मॉडल को ट्रेनिंग देने के लिए, यहां दिए गए काल्पनिक उदाहरणों को देखें.

नस्ल उम्र (साल) वज़न (पाउंड) स्वभाव shedding_level
टॉय पूडल 2 12 उत्तेजित कम स्कोर
गोल्डन रिट्रीवर 7 65 शांत उच्च
लैब्राडोर रिट्रीवर 35 73 स्थिर उच्च
फ़्रेंच बुलडॉग 0.5 11 स्थिर मध्यम
अज्ञात मिक्स ब्रीड 4 45 उत्तेजित उच्च
बैसेट हाउंड 9 48 शांत मध्यम
क्या आपको सुविधा के डेटा में कोई समस्या दिख रही है?
जवाब देखने के लिए यहां क्लिक करें

डेटा का गलत इस्तेमाल

आपके डेटा में किसी भी तरह का बदलाव, आपके मॉडल में पूर्वाग्रह की वजह बन सकता है. ऐसा इसलिए, क्योंकि कुछ ग्रुप या विशेषताओं को उनकी असल दुनिया में मौजूद होने की तुलना में कम या बहुत ज़्यादा बताया जा सकता है.

मॉडल की परफ़ॉर्मेंस की ऑडिटिंग करते समय, नतीजों को सिर्फ़ एक साथ देखना ही ज़रूरी नहीं है, बल्कि सबग्रुप के हिसाब से नतीजों को अलग-अलग देखना भी ज़रूरी है. उदाहरण के लिए, कुत्तों को गोद लेने के लिए बनाए गए मॉडल के मामले में, यह पक्का करने के लिए कि मॉडल में किसी भी तरह का पक्षपात न हो, सिर्फ़ मॉडल के सटीक होने पर ध्यान देना काफ़ी नहीं है. हमें सबग्रुप के हिसाब से परफ़ॉर्मेंस का ऑडिट भी करना चाहिए, ताकि यह पक्का किया जा सके कि मॉडल, कुत्ते की हर नस्ल, उम्र के ग्रुप, और साइज़ के ग्रुप के लिए एक जैसी परफ़ॉर्म करता है.

इस मॉड्यूल में आगे, बायस का आकलन करना सेक्शन में, हम सबग्रुप के हिसाब से मॉडल का आकलन करने के अलग-अलग तरीकों पर बारीकी से नज़र डालेंगे.