संख्या वाला डेटा: कोई मॉडल, फ़ीचर वेक्टर का इस्तेमाल करके डेटा कैसे डालता है

अब तक, हमने आपको यह बताया है कि मॉडल सीधे तौर पर डेटासेट की लाइनों पर काम करता है. हालांकि, असल में मॉडल डेटा को कुछ अलग तरीके से डालते हैं.

उदाहरण के लिए, मान लें कि किसी डेटासेट में पांच कॉलम हैं, लेकिन उनमें से सिर्फ़ दो कॉलम (b और d) मॉडल में फ़ीचर हैं. क्या तीसरी पंक्ति में दिए गए उदाहरण को प्रोसेस करते समय, मॉडल यहां बताए गए तरीके से हाइलाइट की गई दो सेल (3b और 3d) का कॉन्टेंट लेता है?

चित्र 1.  सीधे डेटासेट से उदाहरण डालने वाला मॉडल.
            तीसरी पंक्ति के कॉलम b और d को हाइलाइट किया गया है.
पहला डायग्राम. मॉडल को उदाहरण कैसे मिलते हैं, इस बारे में सटीक जानकारी नहीं है.

दरअसल, मॉडल फ़्लोटिंग-पॉइंट वैल्यू के ऐरे को डालता है, जिसे फ़ीचर वेक्टर कहा जाता है. किसी फ़ीचर वेक्टर को, एक उदाहरण वाली फ़्लोटिंग-पॉइंट वैल्यू के तौर पर समझा जा सकता है.

चित्र 2.  फ़ीचर वेक्टर, डेटासेट और मॉडल के बीच का इंटरमीडियरी होता है.
दूसरा डायग्राम. सच्चाई के करीब है, लेकिन असल नहीं है.

हालांकि, फ़ीचर वेक्टर, डेटासेट की रॉ वैल्यू का इस्तेमाल बहुत कम करते हैं. इसके बजाय, आपको डेटासेट की वैल्यू को ऐसे फ़ॉर्मैट में प्रोसेस करना चाहिए जिससे आपका मॉडल बेहतर तरीके से सीख सके. इसलिए, ज़्यादा असरदार फ़ीचर वेक्टर कुछ ऐसा दिख सकता है:

चित्र 3.  फ़ीचर वेक्टर में दो फ़्लोटिंग-पॉइंट वैल्यू शामिल हैं:
            0.13 और 0.47. ज़्यादा असली फ़ीचर वेक्टर.
तीसरा डायग्राम. ज़्यादा असली फ़ीचर वेक्टर.

क्या डेटासेट में मौजूद बदली गई वैल्यू के बजाय, असल वैल्यू से ट्रेनिंग देकर, मॉडल बेहतर अनुमान नहीं देगा? हैरानी की बात है कि इसका जवाब नहीं है.

आपको यह तय करना होगा कि फ़ीचर वेक्टर में, रॉ डेटासेट की वैल्यू को ट्रेनिंग के लिए इस्तेमाल की जा सकने वाली वैल्यू के तौर पर दिखाने का सबसे अच्छा तरीका क्या है. इस प्रोसेस को फ़ीचर इंजीनियरिंग कहा जाता है. यह मशीन लर्निंग का एक अहम हिस्सा है. फ़ीचर इंजीनियरिंग की सबसे सामान्य तकनीकें ये हैं:

इस यूनिट में, सामान्य बनाने और बाइन करने के बारे में बताया गया है. अगली यूनिट, कैटगरी वाले डेटा के साथ काम करना, प्रीप्रोसेसिंग के दूसरे फ़ॉर्म के बारे में बताती है. जैसे, स्ट्रिंग जैसे नॉन-न्यूमेरिकल डेटा को फ़्लोटिंग पॉइंट वैल्यू में बदलना.

फ़ीचर वेक्टर में मौजूद हर वैल्यू, फ़्लोटिंग-पॉइंट वैल्यू होनी चाहिए. हालांकि, कई सुविधाएं अपने-आप स्ट्रिंग या संख्या के अलावा अन्य वैल्यू होती हैं. इसलिए, फ़ीचर इंजीनियरिंग का ज़्यादातर हिस्सा, संख्याओं वाली वैल्यू के बजाय, संख्याओं वाली वैल्यू दिखा रहा है. आपको बाद के मॉड्यूल में इस बारे में ज़्यादा जानकारी मिलेगी.