मॉडल को ट्रेनिंग देने और उसका आकलन करने के लिए डेटा तैयार करते समय, यह ध्यान रखना ज़रूरी है कि डेटा में किसी भी तरह का पक्षपात न हो. साथ ही, पक्षपात के संभावित सोर्स का ऑडिट करना भी ज़रूरी है. इससे, मॉडल को प्रोडक्शन में रिलीज़ करने से पहले, इसके असर को कम किया जा सकता है.
पक्षपात कहां हो सकता है? यहां कुछ ऐसी चेतावनियां दी गई हैं जिन पर आपको अपने डेटासेट में ध्यान देना चाहिए.
सुविधा की वैल्यू मौजूद नहीं हैं
अगर आपके डेटासेट में एक या उससे ज़्यादा ऐसी सुविधाएं हैं जिनमें बड़ी संख्या में उदाहरणों के लिए वैल्यू मौजूद नहीं हैं, तो इसका मतलब हो सकता है कि आपके डेटासेट की कुछ मुख्य विशेषताओं को कम दिखाया गया है.
व्यायाम: अपनी समझ की जांच करें
आपको पता चलता है कि ट्रेनिंग सेट में मौजूद 5,000 उदाहरणों में से 1,500 में, टेम्परेमेंट की वैल्यू मौजूद नहीं हैं. इनमें से किन संभावित सोर्स की वजह से डेटा में पक्षपात हो सकता है और आपको उनकी जांच करनी चाहिए?
सुविधा की गलत वैल्यू
डेटा की खोज करते समय, आपको ऐसे उदाहरण भी देखने चाहिए जिनमें ऐसी सुविधाएं हों जो खास तौर पर असामान्य या असामान्य. सुविधा की इन अनचाही वैल्यू से, डेटा इकट्ठा करने के दौरान हुई समस्याओं या अन्य गड़बड़ियों का पता चल सकता है. इन गड़बड़ियों की वजह से, नतीजों में पक्षपात हो सकता है.
व्यायाम: अपनी समझ की जांच करें
कुत्तों को बचाने के लिए बनाए गए मॉडल को ट्रेनिंग देने के लिए, यहां दिए गए काल्पनिक उदाहरणों को देखें.
नस्ल | उम्र (साल) | वज़न (पाउंड) | स्वभाव | shedding_level |
---|---|---|---|---|
टॉय पूडल | 2 | 12 | उत्तेजित | कम स्कोर |
गोल्डन रिट्रीवर | 7 | 65 | शांत | उच्च |
लैब्राडोर रिट्रीवर | 35 | 73 | स्थिर | उच्च |
फ़्रेंच बुलडॉग | 0.5 | 11 | स्थिर | मध्यम |
अज्ञात मिक्स ब्रीड | 4 | 45 | उत्तेजित | उच्च |
बैसेट हाउंड | 9 | 48 | शांत | मध्यम |
नस्ल | उम्र (साल) | वज़न (पाउंड) | स्वभाव | shedding_level |
---|---|---|---|---|
टॉय पूडल | 2 | 12 | उत्तेजित | कम स्कोर |
गोल्डन रिट्रीवर | 7 | 65 | शांत | उच्च |
लैब्राडोर रिट्रीवर | 35 | 73 | स्थिर | उच्च |
फ़्रेंच बुलडॉग | 0.5 | 11 | स्थिर | मध्यम |
अज्ञात मिक्स ब्रीड | 4 | 45 | उत्तेजित | उच्च |
बैसेट हाउंड | 9 | 48 | शांत | मध्यम |
सबसे पुराना कुत्ता Bluey है, जिसकी उम्र की गिननेस वर्ल्ड रिकॉर्ड में पुष्टि हुई है. यह एक ऑस्ट्रेलियन कैटल डॉग है, जो 29 साल और 5 महीने तक रहा. इस आधार पर, यह कहना मुश्किल है कि इस लेब्राडोर रिट्रीवर की उम्र 35 साल है. इस बात की ज़्यादा संभावना है कि कुत्ते की उम्र का हिसाब गलत तरीके से लगाया गया हो या उसे गलत तरीके से रिकॉर्ड किया गया हो. हो सकता है कि कुत्ते की उम्र असल में 3.5 साल हो. यह गड़बड़ी, डेटासेट में उम्र के डेटा की सटीकता से जुड़ी बड़ी समस्याओं का भी संकेत हो सकती है. इन समस्याओं की जांच की ज़रूरत है.
डेटा का गलत इस्तेमाल
आपके डेटा में किसी भी तरह का बदलाव, आपके मॉडल में पूर्वाग्रह की वजह बन सकता है. ऐसा इसलिए, क्योंकि कुछ ग्रुप या विशेषताओं को उनकी असल दुनिया में मौजूद होने की तुलना में कम या बहुत ज़्यादा बताया जा सकता है.
मॉडल की परफ़ॉर्मेंस की ऑडिटिंग करते समय, नतीजों को सिर्फ़ एक साथ देखना ही ज़रूरी नहीं है, बल्कि सबग्रुप के हिसाब से नतीजों को अलग-अलग देखना भी ज़रूरी है. उदाहरण के लिए, कुत्तों को गोद लेने के लिए बनाए गए मॉडल के मामले में, यह पक्का करने के लिए कि मॉडल में किसी भी तरह का पक्षपात न हो, सिर्फ़ मॉडल के सटीक होने पर ध्यान देना काफ़ी नहीं है. हमें सबग्रुप के हिसाब से परफ़ॉर्मेंस का ऑडिट भी करना चाहिए, ताकि यह पक्का किया जा सके कि मॉडल, कुत्ते की हर नस्ल, उम्र के ग्रुप, और साइज़ के ग्रुप के लिए एक जैसी परफ़ॉर्म करता है.
इस मॉड्यूल में आगे, बायस का आकलन करना सेक्शन में, हम सबग्रुप के हिसाब से मॉडल का आकलन करने के अलग-अलग तरीकों पर बारीकी से नज़र डालेंगे.