निष्पक्षता: पक्षपात की पहचान करना

मॉडल ट्रेनिंग और इवैलुएशन के लिए डेटा तैयार करते समय, इन बातों का ध्यान रखना ज़रूरी है निष्पक्षता के मुद्दों को ध्यान में रखें और YouTube के संभावित सोर्स पक्षपात, ताकि आप अपने मॉडल को प्रोडक्शन में रिलीज़ करने से पहले, उसके असर को कम करना.

पक्षपात कहां से दिख सकता है? अपने डेटासेट में इन बातों का ध्यान रखें.

सुविधा की वैल्यू मौजूद नहीं हैं

अगर आपके डेटासेट में एक या एक से ज़्यादा ऐसी सुविधाएं हैं जिनमें किसी बड़े डेटासेट की उदाहरण के लिए, यह इस बात का संकेत हो सकता है कि कुछ खास विशेषताओं के बारे में हैं.

व्यायाम: अपनी समझ की जांच करें

आपको एक मॉडल को ट्रेनिंग देनी है, ताकि कुत्तों को बचाने के लिए उन्हें अपनाए जा सकने का अनुमान लगाया जा सके कई चीज़ों पर फ़ोकस किया जा सकता है. इनमें नस्ल, उम्र, वज़न, स्वभाव, और हर दिन फ़र वाले शेड की संख्या. आपका लक्ष्य यह पक्का करना है कि मॉडल सभी तरह के कुत्तों की परफ़ॉर्मेंस एक जैसी होती है, भले ही उनकी शारीरिक बनावट कुछ भी हो या व्यवहार से जुड़ी विशेषताएं

आपको पता चलता है कि ट्रेनिंग सेट में मौजूद 5,000 उदाहरणों में से 1,500 उदाहरण में टेंपरेमेंट वैल्यू मौजूद नहीं हैं. इनमें से कौनसे संभावित सोर्स हैं की जांच कैसे करनी चाहिए?

इस नस्ल की कुछ नस्लों के लिए, तापमान का डेटा मौजूद न होने की संभावना ज़्यादा है कुत्ते.
अगर व्यवहार के डेटा की उपलब्धता, कुत्ते की नस्ल से जुड़ी है, तो हो सकता है कि इससे यह अनुमान लगाना आसान हो जाए कि कुत्तों की कुछ नस्लें.
12 साल से कम उम्र के कुत्तों के लिए, तापमान का डेटा मौजूद न होने की संभावना ज़्यादा है महीने की उम्र
अगर व्यवहार के डेटा की उपलब्धता, उम्र के हिसाब से है, तो इससे यह अनुमान लगाना आसान हो सकता है कि कुत्ते के बच्चे बनाम वयस्क कुत्ते.
बड़े शहरों से बचाए गए सभी कुत्तों के तापमान का डेटा मौजूद नहीं है.
पहली बार में ऐसा लग सकता है कि यह कोई संभावित सोर्स नहीं है क्योंकि डेटा के गायब न होने से बड़े साइज़ के उन सभी कुत्तों पर असर पड़ेगा एक जैसे शहरों में, चाहे उनकी नस्ल, उम्र, वज़न वगैरह कुछ भी हो. हालांकि, हमें अब भी यह ध्यान रखना होगा कि कुत्ता किस जगह से है इन फ़िज़िकल खातों के लिए, प्रॉक्सी के तौर पर काम कर सकते हैं विशेषताएं. उदाहरण के लिए, अगर बड़े शहरों के कुत्ते ज़्यादा ग्रामीण इलाकों के कुत्तों की तुलना में कम होने की संभावना ज़्यादा होती है इसलिए, हो सकता है कि अपनाने वालों के लिहाज़ से सटीक अनुमान न लगाया जा सके कम वज़न वाले कुत्तों या छोटे कुत्तों की कुछ नस्लों के लिए.
डेटासेट में, तापमान का डेटा बिना किसी क्रम के मौजूद नहीं है.
अगर व्यवहार का डेटा वाकई में मौजूद नहीं है, तो ऐसा नहीं होगा पक्षपात की वजह हो सकती है. हालांकि, यह हो सकता है कि डेटा मौजूद न होने पर भी ऐसा हो सकता है कि वह मौजूद न हो. हालांकि, आगे की जांच के लिए अंतर की वजह बता सकता है. इसलिए, यह ज़रूरी है कि ज़्यादा से ज़्यादा लोगों तक पहुंचने के बजाय, यह मान लिया जाए कि डेटा गैप रैंडम हैं.

अनपेक्षित सुविधा मान

डेटा को एक्सप्लोर करते समय, आपको ऐसे उदाहरण भी देखने चाहिए जिनमें सुविधा के मान शामिल हों जो खास तौर पर, असामान्य या असामान्य के तौर पर दिखते हों. ये अनचाही सुविधाएं वैल्यू, डेटा इकट्ठा करने या दूसरे प्रोसेस के दौरान हुई समस्याओं की ओर इशारा कर सकती हैं पक्षपात पैदा करने वाली गलतियां.

व्यायाम: अपनी समझ की जांच करें

रेस्क्यू-डॉग को ट्रेनिंग देने के लिए, इन उदाहरणों के काल्पनिक सेट देखें अपनाने लायक मॉडल.

नस्ल उम्र (साल) वज़न (पाउंड) स्वभाव shedding_level
टॉय पूडल 2 12 उत्साहित कम स्कोर
गोल्डन रिट्रीवर 7 65 स्थिर ज़्यादा स्कोर
लैब्राडोर रिट्रीवर 35 73 स्थिर ज़्यादा स्कोर
फ़्रेंच बुलडॉग 0.5 11 स्थिर मध्यम
अज्ञात मिश्रित नस्ल 4 45 उत्साहित ज़्यादा स्कोर
बैसेट हाउंड 9 48 स्थिर मध्यम
क्या आप सुविधा के डेटा से जुड़ी किसी समस्या का पता लगा सकते हैं?
जवाब देखने के लिए यहां क्लिक करें

डेटा का गलत इस्तेमाल

आपके डेटा में किसी तरह का गड़बड़ी, जहां कुछ ग्रुप या विशेषताएं असल दुनिया में मौजूद होने की तुलना में कम या ज़्यादा प्रतिनिधित्व मिलने पर, अपने मॉडल में पूर्वाग्रह पेश करना.

मॉडल की परफ़ॉर्मेंस का ऑडिट करते समय, ध्यान रखें कि लेकिन सबग्रुप के आधार पर नतीजों को अलग-अलग करने के लिए किया जा सकता है. उदाहरण के लिए, हमारा रेस्क्यू-डॉग एडॉप्बिलिटी मॉडल, निष्पक्षता को सुनिश्चित करने के लिए पर्याप्त नहीं है यह पता लगाया जा सकता है कि जानकारी कितनी सटीक है. हमें सबग्रुप के हिसाब से भी परफ़ॉर्मेंस का ऑडिट करना चाहिए यह पक्का करने के लिए कि मॉडल, कुत्तों की हर नस्ल, उम्र समूह, और साइज़ ग्रुप.

इस मॉड्यूल में आगे, पक्षपात के लिए मूल्यांकन में, हम सबग्रुप के हिसाब से मॉडल का आकलन करने के अलग-अलग तरीकों के बारे में गहराई से जानें.