संख्या वाला डेटा: स्क्रबिंग

सेब के पेड़ों पर बढ़िया फल और कीड़े-मकोड़ों का मिश्रण होता है. इसके बावजूद, किराने की महंगी दुकानों में मौजूद सेब 100% सही फल दिखाते हैं. बगीचे और किराने के सामान के बीच, कोई व्यक्ति सामान हटाने में काफ़ी समय बिताता है खराब सेबों या खराब सेबों पर थोड़ा वैक्स करने से बचा जा सकता है. एमएल इंजीनियर के तौर पर, आपको अपना काफ़ी समय खर्च करना होगा हम खराब उदाहरणों को तोड़ते हैं और जिन चीज़ों से बचने के लिए ज़रूरी हैं उन्हें साफ़ करते हैं. कुछ खराब सेब भी बड़े डेटासेट को खराब कर सकते हैं.

डेटासेट के कई उदाहरण भरोसेमंद नहीं हैं, क्योंकि इनमें से एक या एक से ज़्यादा ये समस्याएं हल करना:

सवाल की कैटगरी उदाहरण
हटाई गई वैल्यू जनगणना करने वाला व्यक्ति, निवासी की उम्र की जानकारी नहीं दे पाता है.
डुप्लीकेट उदाहरण कोई सर्वर एक ही लॉग को दो बार अपलोड करता है.
रेंज से बाहर की सुविधा की वैल्यू. कोई व्यक्ति गलती से एक अतिरिक्त अंक टाइप कर देता है.
खराब लेबल समीक्षा करने वाला व्यक्ति, ओक के पेड़ की तस्वीर को गलत तरीके से लेबल करता है मेपल.

इनमें से किसी भी समस्या का पता लगाने के लिए, कोई प्रोग्राम या स्क्रिप्ट तैयार की जा सकती है:

  • हटाई गई वैल्यू
  • डुप्लीकेट उदाहरण
  • रेंज से बाहर की सुविधाओं की वैल्यू

उदाहरण के लिए, नीचे दिए गए डेटासेट में छह दोहराए गए मान हैं:

इमेज 15. शुरुआती छह वैल्यू दोहराई गई हैं. आखिरी आठ
            मान नहीं हैं.
15वीं इमेज. शुरुआती छह वैल्यू दोहराई गई हैं.

दूसरे उदाहरण के रूप में, मान लें कि किसी विशेषता के लिए तापमान सीमा को तापमान 10 से 30 डिग्री के बीच होना चाहिए. हालांकि, कई दुर्घटनाएं होती हैं—ऐसा शायद Thermometer कुछ समय के लिए धूप के संपर्क में आता है. इसकी वजह से तापमान बहुत खराब होता है. आपके प्रोग्राम या स्क्रिप्ट को 10 या उससे कम तापमान के मानों की पहचान करनी चाहिए 30 से ज़्यादा:

इमेज 16. उन 19 रेंज वाली वैल्यू और एक ऐसी वैल्यू जो रेंज से बाहर की है.
16वीं इमेज. वैल्यू तय सीमा से बाहर है.

अगर कई लोगों ने लेबल जनरेट किए हैं, तो हमारा सुझाव है कि आप आंकड़ों के हिसाब से लेबल जनरेट करें यह तय किया जाता है कि रेटिंग देने वाले हर व्यक्ति ने लेबल के मिलते-जुलते सेट जनरेट किए हैं या नहीं. ऐसा हो सकता है कि रेटिंग देने वाला एक व्यक्ति, अन्य लोगों की तुलना में ज़्यादा सख्त हो या क्या ग्रेडिंग मानदंड का कोई अलग सेट है?

पता चलने पर, आम तौर पर "ठीक किया" जाता है खराब सुविधाओं वाले उदाहरण या खराब लेबल को डेटासेट से हटाकर या उनकी वैल्यू लागू करना. जानकारी के लिए, यह देखें डेटा की विशेषताएं सेक्शन में डेटासेट, सामान्य जानकारी, और ओवरफ़िटिंग मॉड्यूल का इस्तेमाल नहीं किया जाएगा.