फ़ीचर वैक्टर बनाने से पहले, हमारा सुझाव है कि आप संख्या वाले डेटा को इन दो तरीकों से देखें:
- अपने डेटा को प्लॉट या ग्राफ़ में विज़ुअलाइज़ करें.
- अपने डेटा के बारे में आंकड़े पाएं.
अपना डेटा विज़ुअलाइज़ करना
ग्राफ़ की मदद से, डेटा में मौजूद अनियमितताओं या पैटर्न का पता लगाया जा सकता है. इसलिए, विश्लेषण में बहुत ज़्यादा आगे बढ़ने से पहले, अपने डेटा को स्कैटर प्लॉट या हिस्टोग्राम के तौर पर ग्राफ़िक के तौर पर देखें. डेटा पाइपलाइन की शुरुआत में ही नहीं, बल्कि डेटा ट्रांसफ़ॉर्मेशन के दौरान भी ग्राफ़ देखें. विज़ुअलाइज़ेशन की मदद से, अपनी अनुमानित जानकारी की जांच लगातार की जा सकती है.
हमारा सुझाव है कि विज़ुअलाइज़ेशन के लिए, pandas का इस्तेमाल करें:
- मिसिंग डेटा के साथ काम करना (pandas के बारे में दस्तावेज़)
- विज़ुअलाइज़ेशन (pandas के बारे में दस्तावेज़)
ध्यान दें कि कुछ विज़ुअलाइज़ेशन टूल, कुछ खास डेटा फ़ॉर्मैट के लिए ऑप्टिमाइज़ किए गए हैं. ऐसा हो सकता है कि प्रोटोकॉल बफ़र का आकलन करने में मदद करने वाला विज़ुअलाइज़ेशन टूल, CSV डेटा का आकलन करने में मदद करे या न करे.
आंकड़ों के हिसाब से अपने डेटा का आकलन करना
विज़ुअल ऐनलिसिस के अलावा, हम संभावित सुविधाओं और लेबल का आकलन करने का सुझाव देते हैं. इसके लिए, बुनियादी आंकड़े इकट्ठा करें, जैसे:
- औसत और मीडियन
- मानक विचलन
- क्वार्टाइल डिवीज़न की वैल्यू: 0वीं, 25वीं, 50वीं, 75वीं, और 100वीं पर्सेंटाइल. 0वां पर्सेंटाइल, इस कॉलम की सबसे कम वैल्यू है; 100वां पर्सेंटाइल, इस कॉलम की सबसे ज़्यादा वैल्यू है. (50वां पर्सेंटाइल, माध्यिका होता है.)
आउटलायर ढूंढना
आउटलायर, किसी फ़ीचर या लेबल में मौजूद ज़्यादातर वैल्यू से अलग होती है. आउटलायर की वजह से, मॉडल को ट्रेनिंग देने में अक्सर समस्याएं आती हैं. इसलिए, आउटलायर ढूंढना ज़रूरी है.
जब 0वें और 25वें पर्सेंटाइल के बीच का डेल्टा, 75वें और 100वें पर्सेंटाइल के बीच के डेल्टा से काफ़ी अलग हो, तो हो सकता है कि डेटासेट में आउटलायर हों.
आउटलायर इनमें से किसी भी कैटगरी में आ सकते हैं:
- आउटलायर, गलती की वजह से है. उदाहरण के लिए, हो सकता है कि किसी प्रयोगकर्ता ने गलती से एक अतिरिक्त शून्य डाला हो या डेटा इकट्ठा करने वाले किसी इंस्ट्रूमेंट में गड़बड़ी हुई हो. आम तौर पर, गड़बड़ी वाले आउटलायर वाले उदाहरण मिटाए जाते हैं.
- आउटलायर एक मान्य डेटा पॉइंट है, गलती नहीं.
इस मामले में, क्या आपके ट्रेन किए गए मॉडल को आखिर में इन आउटलायर के लिए अच्छे अनुमान लगाने होंगे?
- अगर हां, तो इन आउटलायर को अपने ट्रेनिंग सेट में रखें. आखिरकार, कुछ सुविधाओं में आउटलायर, कभी-कभी लेबल में आउटलायर की तरह दिखते हैं. इसलिए, आउटलायर आपके मॉडल को बेहतर अनुमान लगाने में मदद कर सकते हैं. ध्यान रखें, बहुत ज़्यादा आउटलायर आपके मॉडल पर अब भी असर डाल सकते हैं.
- अगर नहीं, तो आउटलायर मिटाएं या क्लिपिंग जैसी ज़्यादा असरदार सुविधाएं इंजीनियर करने की तकनीकें लागू करें.