डेटा और सुविधा डीबग करना

हल्की क्वालिटी वाला डेटा आपके मॉडल की परफ़ॉर्मेंस पर काफ़ी असर डालेगा. पहले से खराब मॉडल का अनुमान लगाने के बाद, इनपुट में मौजूद, खराब क्वालिटी वाले डेटा का पता लगाने के बजाय, उसकी क्वालिटी का पता लगाना बहुत आसान होता है. इस सेक्शन में दी गई सलाह अपनाकर, अपने डेटा की निगरानी करें.

डेटा स्कीमा का इस्तेमाल करके, इनपुट डेटा की पुष्टि करें

अपने डेटा पर नज़र रखने के लिए, आपको अपने डेटा की नियमित रूप से जांच करनी चाहिए और नियमों के हिसाब से उन आंकड़ों की वैल्यू डालनी चाहिए जिनका पालन करना ज़रूरी है. नियमों के इस कलेक्शन को डेटा स्कीमा कहा जाता है. डेटा स्कीमा के बारे में बताने के लिए यह तरीका अपनाएं:

  1. अपनी सुविधा के डेटा के लिए, रेंज और डिस्ट्रिब्यूशन को समझें. कैटगरी की सुविधाओं के लिए, संभावित वैल्यू के सेट को समझें.
  2. स्कीमा में तय किए गए नियमों में अपनी समझ को कोड में बदलें. नियमों के उदाहरण:

    • पक्का करें कि उपयोगकर्ता की सबमिट की गई रेटिंग हमेशा 1 से 5 के बीच है.
    • जांच लें कि ““” सबसे ज़्यादा बार दिखता है (अंग्रेज़ी टेक्स्ट सुविधा के लिए).
    • जांच लें कि कैटगरी की सुविधाओं के लिए तय किए गए सेट की वैल्यू मौजूद हों.
  3. डेटा स्कीमा के मुताबिक अपने डेटा की जांच करें. आपके स्कीमा में डेटा से जुड़ी गड़बड़ियां आनी चाहिए, जैसे:

    • अनियमितताएं
    • कैटगरी वैरिएबल की अनचाहे वैल्यू
    • अनचाहा डेटा डिस्ट्रिब्यूशन

पक्का करें कि स्प्लिट अच्छी क्वालिटी के हों

आपके टेस्ट और ट्रेनिंग स्प्लिट, आपके इनपुट डेटा के बराबर होने चाहिए. अगर टेस्ट और ट्रेनिंग स्प्लिट, आंकड़ों के हिसाब से अलग-अलग हैं, तो ट्रेनिंग डेटा से टेस्ट डेटा का अनुमान लगाने में मदद नहीं मिलेगी. डेटा को सैंपल और स्प्लिट करने का तरीका जानने के लिए, एमएल कोर्स में डेटा तैयार करने और सुविधा इंजीनियरिंग में सैंपलिंग और स्प्लिट डेटा सेक्शन देखें.

अपने स्प्लिट के आंकड़ों वाली प्रॉपर्टी पर नज़र रखें. अगर प्रॉपर्टी अलग-अलग होती है, तो फ़्लैग करें. इसके अलावा, जांच लें कि हर स्प्लिट में उदाहरणों का अनुपात एक जैसा ही रहे. उदाहरण के लिए, अगर आपका डेटा 80:20 पर बंटा है, तो यह अनुपात नहीं बदलना चाहिए.

टेस्ट इंजीनियर का डेटा

हालांकि, आपका रॉ डेटा मान्य हो सकता है, लेकिन आपके मॉडल में सिर्फ़ इंजीनियरिंग की सुविधा वाला डेटा दिखेगा. इंजीनियर से जुड़ा डेटा, रॉ इनपुट डेटा से काफ़ी अलग होता है. इसलिए, आपको इंजीनियर से जुड़े डेटा की अलग से जांच करनी होगी. अपने इंजीनियर डेटा के बारे में अपनी समझ के आधार पर, इकाई परीक्षण लिखें. उदाहरण के लिए, इकाई की जांच लिखकर, नीचे दी गई शर्तें देखी जा सकती हैं:

  • सभी अंकों वाली सुविधाओं को बढ़ाया जाता है, जैसे कि 0 और 1 के बीच.
  • एक-हॉट कोड में बदले गए वेक्टर में सिर्फ़ एक और N-1 शून्य होते हैं.
  • जो डेटा मौजूद नहीं है उसे मीन या डिफ़ॉल्ट वैल्यू से बदल दिया जाता है.
  • बदलाव के बाद डेटा का बंटवारा, उम्मीद के मुताबिक होता है. उदाहरण के लिए, अगर आपने z-स्कोर का इस्तेमाल करके सामान्य सेटिंग की है, तो z-स्कोर का औसत 0 होता है.
  • आउटलायर को हैंडल या क्लिप करके, हैंडल किया जाता है.