संख्या वाला डेटा: पहले चरण

फ़ीचर वेक्टर बनाने से पहले, हमारा सुझाव है कि संख्यात्मक डेटा का अध्ययन दो तरीके:

  • अपने डेटा को प्लॉट या ग्राफ़ में विज़ुअलाइज़ करना.
  • अपने डेटा के बारे में आंकड़े पाएं.

अपना डेटा विज़ुअलाइज़ करना

ग्राफ़ की मदद से, डेटा में छिपी अनियमितताओं या पैटर्न का पता लगाया जा सकता है. इसलिए, बहुत ज़्यादा विश्लेषण करने से पहले, अपने डेटा को स्कैटर प्लॉट या हिस्टोग्राम के रूप में दिखाया जाता है. ऐसे ग्राफ़ देखें जो मौजूद नहीं हैं सिर्फ़ डेटा पाइपलाइन की शुरुआत में, बल्कि पूरे डेटा पर भी बदलाव लाने के लिए किया जा सकता है. विज़ुअलाइज़ेशन की मदद से, अपने अनुमानों की लगातार जांच की जा सकती है.

हमारा सुझाव है कि विज़ुअलाइज़ेशन के लिए, पांडा के साथ काम करें:

ध्यान दें कि कुछ विज़ुअलाइज़ेशन टूल, कुछ डेटा फ़ॉर्मैट के लिए ऑप्टिमाइज़ किए जाते हैं. एक विज़ुअलाइज़ेशन टूल जो प्रोटोकॉल बफ़र का आकलन करने में आपकी मदद करता है और शायद नहीं भी CSV डेटा का मूल्यांकन करने में आपकी सहायता कर सकते हैं.

अपने डेटा के आंकड़ों का आकलन करना

हमारा सुझाव है कि विज़ुअल विश्लेषण के अलावा, संभावित सुविधाओं और लेबल गणितीय रूप से, बुनियादी आंकड़े इकट्ठा करना, जैसे कि:

  • माध्य और माध्यिका
  • मानक विचलन
  • क्वार्टाइल की कैटगरी में आने वाली वैल्यू: 0वां, 25वां, 50वां, 75वां, और 100वां पर्सेंटाइल. 0वां पर्सेंटाइल इस कॉलम की सबसे कम वैल्यू है; यह इस कॉलम की सबसे बड़ी वैल्यू 100वां पर्सेंटाइल है. (50% पर्सेंटाइल मीडियन है.)

आउटलायर का पता लगाएं

आउटलायर एक वैल्यू दूर है वैल्यू को हाइलाइट किया जाता है. बाहरी वजहों से अक्सर समस्याएं होती हैं इसलिए, आउटलायर का पता लगाना ज़रूरी है.

जब 0वें और 25वें पर्सेंटाइल के बीच का डेल्टा काफ़ी अलग होता है 75वें और 100वें पर्सेंटाइल के बीच के डेल्टा से, तो इसमें आउटलायर मौजूद होते हैं.

आउटलायर्स को इनमें से किसी भी कैटगरी में रखा जा सकता है:

  • आउटलायर, गलती की वजह से होता है. उदाहरण के लिए, शायद किसी एक्सपेरिमेंट करने वाले व्यक्ति ने गलती से एक अतिरिक्त शून्य डाल दिया हो, या शायद ऐसा कोई उपकरण जिसके ज़रिए डेटा इकट्ठा किया गया हो. आम तौर पर, ऐसे उदाहरण मिटा दिए जाते हैं जिनमें गलती से जुड़ी जानकारी दी गई हो.
  • आउटलायर एक वैध डेटा पॉइंट है, न कि कोई गलती. इस मामले में, क्या आपका मॉडल क्या उन अलग-अलग पहलुओं के बारे में अच्छे अनुमान लगाने हैं?
    • अगर हां, तो आउटलायर को अपने ट्रेनिंग सेट में रखें. जिसकी वजह से, उस असर को कभी-कभी लेबल में आउटलायर की जानकारी शामिल होती है, इसलिए आउटलायर आपके मॉडल को बेहतर अनुमान लगाने में असल में मदद कर सकते हैं. सावधान रहें, चरम सीमा में रहने वाले लोग अब भी आपके मॉडल को नुकसान पहुंचा सकते हैं.
    • अगर नहीं, तो आउटलायर को मिटाएं या ज़्यादा खतरनाक फ़ीचर इंजीनियरिंग लागू करें तकनीक, जैसे कि क्लिप.