सेब के पेड़ों पर बढ़िया फल और कीड़े-मकोड़ों का मिश्रण होता है. इसके बावजूद, किराने की महंगी दुकानों में मौजूद सेब 100% सही फल दिखाते हैं. बगीचे और किराने के सामान के बीच, कोई व्यक्ति सामान हटाने में काफ़ी समय बिताता है खराब सेबों या खराब सेबों पर थोड़ा वैक्स करने से बचा जा सकता है. एमएल इंजीनियर के तौर पर, आपको अपना काफ़ी समय खर्च करना होगा हम खराब उदाहरणों को तोड़ते हैं और जिन चीज़ों से बचने के लिए ज़रूरी हैं उन्हें साफ़ करते हैं. कुछ खराब सेब भी बड़े डेटासेट को खराब कर सकते हैं.
डेटासेट के कई उदाहरण भरोसेमंद नहीं हैं, क्योंकि इनमें से एक या एक से ज़्यादा ये समस्याएं हल करना:
सवाल की कैटगरी | उदाहरण |
---|---|
हटाई गई वैल्यू | जनगणना करने वाला व्यक्ति, निवासी की उम्र की जानकारी नहीं दे पाता है. |
डुप्लीकेट उदाहरण | कोई सर्वर एक ही लॉग को दो बार अपलोड करता है. |
रेंज से बाहर की सुविधा की वैल्यू. | कोई व्यक्ति गलती से एक अतिरिक्त अंक टाइप कर देता है. |
खराब लेबल | समीक्षा करने वाला व्यक्ति, ओक के पेड़ की तस्वीर को गलत तरीके से लेबल करता है मेपल. |
इनमें से किसी भी समस्या का पता लगाने के लिए, कोई प्रोग्राम या स्क्रिप्ट तैयार की जा सकती है:
- हटाई गई वैल्यू
- डुप्लीकेट उदाहरण
- रेंज से बाहर की सुविधाओं की वैल्यू
उदाहरण के लिए, नीचे दिए गए डेटासेट में छह दोहराए गए मान हैं:
दूसरे उदाहरण के रूप में, मान लें कि किसी विशेषता के लिए तापमान सीमा को तापमान 10 से 30 डिग्री के बीच होना चाहिए. हालांकि, कई दुर्घटनाएं होती हैं—ऐसा शायद Thermometer कुछ समय के लिए धूप के संपर्क में आता है. इसकी वजह से तापमान बहुत खराब होता है. आपके प्रोग्राम या स्क्रिप्ट को 10 या उससे कम तापमान के मानों की पहचान करनी चाहिए 30 से ज़्यादा:
अगर कई लोगों ने लेबल जनरेट किए हैं, तो हमारा सुझाव है कि आप आंकड़ों के हिसाब से लेबल जनरेट करें यह तय किया जाता है कि रेटिंग देने वाले हर व्यक्ति ने लेबल के मिलते-जुलते सेट जनरेट किए हैं या नहीं. ऐसा हो सकता है कि रेटिंग देने वाला एक व्यक्ति, अन्य लोगों की तुलना में ज़्यादा सख्त हो या क्या ग्रेडिंग मानदंड का कोई अलग सेट है?
पता चलने पर, आम तौर पर "ठीक किया" जाता है खराब सुविधाओं वाले उदाहरण या खराब लेबल को डेटासेट से हटाकर या उनकी वैल्यू लागू करना. जानकारी के लिए, यह देखें डेटा की विशेषताएं सेक्शन में डेटासेट, सामान्य जानकारी, और ओवरफ़िटिंग मॉड्यूल का इस्तेमाल नहीं किया जाएगा.