निष्पक्षता: पक्षपात की पहचान करना

मॉडल को ट्रेनिंग देने और उसका आकलन करने के लिए डेटा तैयार करते समय, यह ध्यान रखना ज़रूरी है कि डेटा में किसी भी तरह का पक्षपात न हो. साथ ही, पक्षपात के संभावित सोर्स का ऑडिट करना भी ज़रूरी है. इससे, मॉडल को प्रोडक्शन में रिलीज़ करने से पहले, इसके असर को कम किया जा सकता है.

पक्षपात कहां हो सकता है? यहां कुछ ऐसी चेतावनियां दी गई हैं जिन पर आपको अपने डेटासेट में ध्यान देना चाहिए.

सुविधा की वैल्यू मौजूद नहीं हैं

अगर आपके डेटासेट में एक या उससे ज़्यादा ऐसी सुविधाएं हैं जिनमें बड़ी संख्या में उदाहरणों के लिए वैल्यू मौजूद नहीं हैं, तो इसका मतलब हो सकता है कि आपके डेटासेट की कुछ मुख्य विशेषताओं को कम दिखाया गया है.

व्यायाम: अपनी समझ की जांच करें

आपने एक मॉडल को ट्रेन किया है, ताकि वह कुत्तों को गोद लेने के बारे में बता सके. यह जानकारी, कुत्तों की नस्ल, उम्र, वज़न, स्वभाव, और हर दिन उनके बालों के झड़ने की संख्या जैसी कई चीज़ों के आधार पर दी जाती है. आपका लक्ष्य यह पक्का करना है कि मॉडल, सभी तरह के कुत्तों पर एक जैसी परफ़ॉर्म करे. भले ही, उनकी शारीरिक या व्यवहार से जुड़ी विशेषताएं अलग-अलग हों

आपको पता चलता है कि ट्रेनिंग सेट में मौजूद 5,000 उदाहरणों में से 1,500 में, टेम्परेमेंट की वैल्यू मौजूद नहीं हैं. इनमें से किन संभावित सोर्स की वजह से डेटा में पक्षपात हो सकता है और आपको उनकी जांच करनी चाहिए?

कुत्तों की कुछ नस्लों के लिए, स्वभाव का डेटा मौजूद न होने की संभावना ज़्यादा होती है.

अगर कुत्तों की नस्ल के हिसाब से व्यवहार के डेटा की उपलब्धता एक-दूसरे से मेल खाती है, तो हो सकता है कि कुछ खास नस्ल के कुत्तों के लिए, अपनाने से जुड़े सटीक अनुमान न दिए जा सकें.

12 महीने से कम उम्र के कुत्तों के लिए, तापमान का डेटा मौजूद न होने की संभावना ज़्यादा है

अगर कुत्ते के स्वभाव से जुड़ा डेटा, उसकी उम्र के हिसाब से उपलब्ध है, तो इससे कुत्तों को गोद लेने के अनुमान में कम सटीक नतीजे मिल सकते हैं.

बड़े शहरों से बचाए गए सभी कुत्तों के लिए, स्वभाव का डेटा मौजूद नहीं है.

पहली नज़र में शायद यह पता न लगे कि यह पूर्वाग्रह का संभावित सोर्स है, क्योंकि डेटा के न होने पर बड़े शहरों के सभी कुत्तों पर बराबर तौर पर असर पड़ेगा, चाहे उनकी नस्ल, उम्र, वज़न वगैरह कुछ भी हो. हालांकि, हमें यह देखना होगा कि कुत्ता जिस जगह से है वह इन विशेषताओं के लिए प्रॉक्सी के तौर पर काम कर सकती है. उदाहरण के लिए, अगर बड़े शहरों के कुत्तों के ग्रामीण इलाकों के कुत्तों के मुकाबले छोटे होने की संभावना ज़्यादा है, तो कम वज़न वाले कुत्तों या छोटे कुत्तों की कुछ नस्लों के लिए, गोद लेने के अनुमान कम सटीक हो सकते हैं.

डेटासेट में, तापमान का डेटा बिना किसी क्रम के मौजूद नहीं है.

अगर व्यवहार का डेटा वाकई में मौजूद नहीं है, तो यह पूर्वाग्रह की वजह नहीं होगी. हालांकि, ऐसा हो सकता है कि आपके डिवाइस पर, टेम्परेमेंट का डेटा अचानक से न दिखे. हालांकि, इसकी वजह पता करने पर, आपको इस अंतर के बारे में जानकारी मिल सकती है. इसलिए, यह ज़रूरी है कि आप डेटा गैप को रैंडम मानने के बजाय, अन्य संभावनाओं को खारिज करने के लिए पूरी तरह से समीक्षा करें.

सुविधा की गलत वैल्यू

डेटा की खोज करते समय, आपको ऐसे उदाहरण भी देखने चाहिए जिनमें ऐसी सुविधाएं हों जो खास तौर पर असामान्य या असामान्य. सुविधा की इन अनचाही वैल्यू से, डेटा इकट्ठा करने के दौरान हुई समस्याओं या अन्य गड़बड़ियों का पता चल सकता है. इन गड़बड़ियों की वजह से, नतीजों में पक्षपात हो सकता है.

व्यायाम: अपनी समझ की जांच करें

कुत्तों को बचाने के लिए बनाए गए मॉडल को ट्रेनिंग देने के लिए, यहां दिए गए काल्पनिक उदाहरणों को देखें.

नस्ल	उम्र (साल)	वज़न (पाउंड)	स्वभाव	shedding_level
टॉय पूडल	2	12	उत्तेजित	कम स्कोर
गोल्डन रिट्रीवर	7	65	शांत	उच्च
लैब्राडोर रिट्रीवर	35	73	स्थिर	उच्च
फ़्रेंच बुलडॉग	0.5	11	स्थिर	मध्यम
अज्ञात मिक्स ब्रीड	4	45	उत्तेजित	उच्च
बैसेट हाउंड	9	48	शांत	मध्यम

क्या आपको सुविधा के डेटा में कोई समस्या दिख रही है?

जवाब देखने के लिए यहां क्लिक करें

नस्ल	उम्र (साल)	वज़न (पाउंड)	स्वभाव	shedding_level
टॉय पूडल	2	12	उत्तेजित	कम स्कोर
गोल्डन रिट्रीवर	7	65	शांत	उच्च
लैब्राडोर रिट्रीवर	35	73	स्थिर	उच्च
फ़्रेंच बुलडॉग	0.5	11	स्थिर	मध्यम
अज्ञात मिक्स ब्रीड	4	45	उत्तेजित	उच्च
बैसेट हाउंड	9	48	शांत	मध्यम

सबसे पुराना कुत्ता Bluey है, जिसकी उम्र की गिननेस वर्ल्ड रिकॉर्ड में पुष्टि हुई है. यह एक ऑस्ट्रेलियन कैटल डॉग है, जो 29 साल और 5 महीने तक रहा. इस आधार पर, यह कहना मुश्किल है कि इस लेब्राडोर रिट्रीवर की उम्र 35 साल है. इस बात की ज़्यादा संभावना है कि कुत्ते की उम्र का हिसाब गलत तरीके से लगाया गया हो या उसे गलत तरीके से रिकॉर्ड किया गया हो. हो सकता है कि कुत्ते की उम्र असल में 3.5 साल हो. यह गड़बड़ी, डेटासेट में उम्र के डेटा की सटीकता से जुड़ी बड़ी समस्याओं का भी संकेत हो सकती है. इन समस्याओं की जांच की ज़रूरत है.

डेटा का गलत इस्तेमाल

आपके डेटा में किसी भी तरह का बदलाव, आपके मॉडल में पूर्वाग्रह की वजह बन सकता है. ऐसा इसलिए, क्योंकि कुछ ग्रुप या विशेषताओं को उनकी असल दुनिया में मौजूद होने की तुलना में कम या बहुत ज़्यादा बताया जा सकता है.

मॉडल की परफ़ॉर्मेंस की ऑडिटिंग करते समय, नतीजों को सिर्फ़ एक साथ देखना ही ज़रूरी नहीं है, बल्कि सबग्रुप के हिसाब से नतीजों को अलग-अलग देखना भी ज़रूरी है. उदाहरण के लिए, कुत्तों को गोद लेने के लिए बनाए गए मॉडल के मामले में, यह पक्का करने के लिए कि मॉडल में किसी भी तरह का पक्षपात न हो, सिर्फ़ मॉडल के सटीक होने पर ध्यान देना काफ़ी नहीं है. हमें सबग्रुप के हिसाब से परफ़ॉर्मेंस का ऑडिट भी करना चाहिए, ताकि यह पक्का किया जा सके कि मॉडल, कुत्ते की हर नस्ल, उम्र के ग्रुप, और साइज़ के ग्रुप के लिए एक जैसी परफ़ॉर्म करता है.

इस मॉड्यूल में आगे, बायस का आकलन करना सेक्शन में, हम सबग्रुप के हिसाब से मॉडल का आकलन करने के अलग-अलग तरीकों पर बारीकी से नज़र डालेंगे.

पीछे जाएं

पक्षपात के टाइप (5 मिनट)

आगे बढ़ें

बायस को कम करना (5 मिनट)