मॉडल ट्रेनिंग और इवैलुएशन के लिए डेटा तैयार करते समय, इन बातों का ध्यान रखना ज़रूरी है निष्पक्षता के मुद्दों को ध्यान में रखें और YouTube के संभावित सोर्स पक्षपात, ताकि आप अपने मॉडल को प्रोडक्शन में रिलीज़ करने से पहले, उसके असर को कम करना.
पक्षपात कहां से दिख सकता है? अपने डेटासेट में इन बातों का ध्यान रखें.
सुविधा की वैल्यू मौजूद नहीं हैं
अगर आपके डेटासेट में एक या एक से ज़्यादा ऐसी सुविधाएं हैं जिनमें किसी बड़े डेटासेट की उदाहरण के लिए, यह इस बात का संकेत हो सकता है कि कुछ खास विशेषताओं के बारे में हैं.
व्यायाम: अपनी समझ की जांच करें
आपको पता चलता है कि ट्रेनिंग सेट में मौजूद 5,000 उदाहरणों में से 1,500 उदाहरण में टेंपरेमेंट वैल्यू मौजूद नहीं हैं. इनमें से कौनसे संभावित सोर्स हैं की जांच कैसे करनी चाहिए?
अनपेक्षित सुविधा मान
डेटा को एक्सप्लोर करते समय, आपको ऐसे उदाहरण भी देखने चाहिए जिनमें सुविधा के मान शामिल हों जो खास तौर पर, असामान्य या असामान्य के तौर पर दिखते हों. ये अनचाही सुविधाएं वैल्यू, डेटा इकट्ठा करने या दूसरे प्रोसेस के दौरान हुई समस्याओं की ओर इशारा कर सकती हैं पक्षपात पैदा करने वाली गलतियां.
व्यायाम: अपनी समझ की जांच करें
रेस्क्यू-डॉग को ट्रेनिंग देने के लिए, इन उदाहरणों के काल्पनिक सेट देखें अपनाने लायक मॉडल.
नस्ल | उम्र (साल) | वज़न (पाउंड) | स्वभाव | shedding_level |
---|---|---|---|---|
टॉय पूडल | 2 | 12 | उत्साहित | कम स्कोर |
गोल्डन रिट्रीवर | 7 | 65 | स्थिर | ज़्यादा स्कोर |
लैब्राडोर रिट्रीवर | 35 | 73 | स्थिर | ज़्यादा स्कोर |
फ़्रेंच बुलडॉग | 0.5 | 11 | स्थिर | मध्यम |
अज्ञात मिश्रित नस्ल | 4 | 45 | उत्साहित | ज़्यादा स्कोर |
बैसेट हाउंड | 9 | 48 | स्थिर | मध्यम |
नस्ल | उम्र (साल) | वज़न (पाउंड) | स्वभाव | shedding_level |
---|---|---|---|---|
टॉय पूडल | 2 | 12 | उत्साहित | कम स्कोर |
गोल्डन रिट्रीवर | 7 | 65 | स्थिर | ज़्यादा स्कोर |
लैब्राडोर रिट्रीवर | 35 | 73 | स्थिर | ज़्यादा स्कोर |
फ़्रेंच बुलडॉग | 0.5 | 11 | स्थिर | मध्यम |
अज्ञात मिश्रित नस्ल | 4 | 45 | उत्साहित | ज़्यादा स्कोर |
बैसेट हाउंड | 9 | 48 | स्थिर | मध्यम |
सबसे पुराना कुत्ता जिसकी उम्र की पुष्टि गिननेस वर्ल्ड रिकॉर्ड में हो चुकी है Bluey था, एक ऑस्ट्रेलियन कैटल डॉग, जो 29 साल और 5 महीने रहा. यह देखते हुए कि लगता है कि लैब्राडोर रिट्रीवर की उम्र 35 साल है, साथ ही, इस बात की संभावना भी ज़्यादा होती है कि कुत्ते की उम्र का हिसाब लगाया गया हो या उसे रिकॉर्ड किया गया हो गलत जानकारी दी गई है (शायद कुत्ता असल में 3.5 साल का हो). इस गड़बड़ी की वजह से साथ ही, डेटासेट में उम्र से जुड़े डेटा की सटीक जानकारी से जुड़ी समस्याओं को भी दिखाता है जिसे आगे की जांच-पड़ताल करनी होगी.
डेटा का गलत इस्तेमाल
आपके डेटा में किसी तरह का गड़बड़ी, जहां कुछ ग्रुप या विशेषताएं असल दुनिया में मौजूद होने की तुलना में कम या ज़्यादा प्रतिनिधित्व मिलने पर, अपने मॉडल में पूर्वाग्रह पेश करना.
मॉडल की परफ़ॉर्मेंस का ऑडिट करते समय, ध्यान रखें कि लेकिन सबग्रुप के आधार पर नतीजों को अलग-अलग करने के लिए किया जा सकता है. उदाहरण के लिए, हमारा रेस्क्यू-डॉग एडॉप्बिलिटी मॉडल, निष्पक्षता को सुनिश्चित करने के लिए पर्याप्त नहीं है यह पता लगाया जा सकता है कि जानकारी कितनी सटीक है. हमें सबग्रुप के हिसाब से भी परफ़ॉर्मेंस का ऑडिट करना चाहिए यह पक्का करने के लिए कि मॉडल, कुत्तों की हर नस्ल, उम्र समूह, और साइज़ ग्रुप.
इस मॉड्यूल में आगे, पक्षपात के लिए मूल्यांकन में, हम सबग्रुप के हिसाब से मॉडल का आकलन करने के अलग-अलग तरीकों के बारे में गहराई से जानें.