संख्या वाला डेटा: कोई मॉडल, फ़ीचर वेक्टर का इस्तेमाल करके डेटा कैसे डालता है

अब तक, हमने आपको यह इंप्रेशन दिया है कि मॉडल सीधे डेटासेट की पंक्तियां; हालांकि, मॉडल डेटा को अलग तरीके से अपनाते हैं.

उदाहरण के लिए, मान लीजिए कि एक डेटासेट में पांच कॉलम हैं, लेकिन उनमें से सिर्फ़ दो कॉलम हैं कॉलम (b और d) मॉडल की सुविधाएं हैं. प्रोसेस करते समय उदाहरण की पंक्ति 3 में दिया है, तो क्या मॉडल दो सेल (3b और 3d) को इस तरह हाइलाइट किया गया?

चित्र 1.  सीधे डेटासेट से उदाहरण लेने वाला मॉडल.
            पंक्ति 3 के कॉलम b और d हाइलाइट किए गए हैं.
पहला डायग्राम. यह नहीं है कि मॉडल को अपने उदाहरण कैसे मिलते हैं.

यह मॉडल असल में फ़्लोटिंग-पॉइंट वैल्यू के कलेक्शन का डेटा डालता है. इस कलेक्शन को फ़ीचर वेक्टर. आप सोच सकते हैं को फ़्लोटिंग-पॉइंट वैल्यू के तौर पर दिखाया जाएगा. इस वैल्यू का एक उदाहरण है.

चित्र 2.  फ़ीचर वेक्टर, डेटासेट के बीच का मध्यस्थ होता है
            और मॉडल की ज़रूरत होती है.
दूसरा डायग्राम. सच के करीब हो, लेकिन असल न हो.

हालांकि, फ़ीचर वेक्टर में डेटासेट की रॉ वैल्यू का इस्तेमाल शायद ही कभी किया जाता है. इसके बजाय, आपको डेटासेट की वैल्यू को आम तौर पर निरूपणों के तौर पर प्रोसेस करना होगा जिससे आपका मॉडल बेहतर तरीके से सीख सकता है. इसलिए, ज़्यादा असली दुनिया में फ़ीचर वेक्टर कुछ ऐसा दिख सकता है:

चित्र 3.  फ़ीचर वेक्टर में दो फ़्लोटिंग-पॉइंट वैल्यू होती हैं:
            0.13 और 0.47. फ़ीचर वेक्टर को ज़्यादा भरोसेमंद तरीके से दिखाया जा रहा है.
तीसरी इमेज. फ़ीचर वेक्टर को ज़्यादा भरोसेमंद तरीके से दिखाया जा रहा है.

क्या कोई मॉडल बदले गए वैल्यू की तुलना में, डेटासेट में असल वैल्यू? हैरानी की बात है कि इसका जवाब है, नहीं.

आपको रॉ डेटासेट की वैल्यू को ट्रेनिंग देने वाले के तौर पर दिखाने का सबसे अच्छा तरीका तय करना होगा फ़ीचर वेक्टर में वैल्यू. इस प्रोसेस को फ़ीचर इंजीनियरिंग, और यह मशीन लर्निंग का एक अहम हिस्सा है. फ़ीचर इंजीनियरिंग की सबसे आम तकनीकें ये हैं:

  • नॉर्मलाइज़ेशन: बदला जा रहा है न्यूमेरिक वैल्यू को स्टैंडर्ड रेंज में रखा जा सकता है.
  • बिनिंग (इसे इस नाम से भी जाना जाता है बकेटिंग): अंकों वाली वैल्यू को बदला जा रहा है रेंज के बकेट में वैल्यू.

इस इकाई में नॉर्मलाइज़िंग और बिनिंग के बारे में बताया गया है. अगली यूनिट, कैटगरिकल डेटा के साथ काम करना, में इस तरह की अन्य प्री-प्रोसेसिंग, जैसे कि स्ट्रिंग जैसे बिना संख्या वाले डेटा को फ़्लोटिंग पॉइंट वैल्यू में बदलना.

किसी फ़ीचर वेक्टर में मौजूद हर वैल्यू, फ़्लोटिंग-पॉइंट वैल्यू होनी चाहिए. हालांकि, कई सुविधाएं, स्वाभाविक रूप से स्ट्रिंग या अन्य बिना संख्या वाली वैल्यू हैं. इस वजह से, फ़ीचर इंजीनियरिंग का एक बड़ा हिस्सा बिना संख्या वाली वैल्यू को इस तरह दिखाता है अंकों वाली वैल्यू. आपको बाद के मॉड्यूल में इस तरह के काफ़ी कार्ड दिखेंगे.