अब तक, हमने आपको यह इंप्रेशन दिया है कि मॉडल सीधे डेटासेट की पंक्तियां; हालांकि, मॉडल डेटा को अलग तरीके से अपनाते हैं.
उदाहरण के लिए, मान लीजिए कि एक डेटासेट में पांच कॉलम हैं, लेकिन उनमें से सिर्फ़ दो कॉलम हैं
कॉलम (b
और d
) मॉडल की सुविधाएं हैं. प्रोसेस करते समय
उदाहरण की पंक्ति 3 में दिया है, तो क्या मॉडल
दो सेल (3b और 3d) को इस तरह हाइलाइट किया गया?
यह मॉडल असल में फ़्लोटिंग-पॉइंट वैल्यू के कलेक्शन का डेटा डालता है. इस कलेक्शन को फ़ीचर वेक्टर. आप सोच सकते हैं को फ़्लोटिंग-पॉइंट वैल्यू के तौर पर दिखाया जाएगा. इस वैल्यू का एक उदाहरण है.
हालांकि, फ़ीचर वेक्टर में डेटासेट की रॉ वैल्यू का इस्तेमाल शायद ही कभी किया जाता है. इसके बजाय, आपको डेटासेट की वैल्यू को आम तौर पर निरूपणों के तौर पर प्रोसेस करना होगा जिससे आपका मॉडल बेहतर तरीके से सीख सकता है. इसलिए, ज़्यादा असली दुनिया में फ़ीचर वेक्टर कुछ ऐसा दिख सकता है:
क्या कोई मॉडल बदले गए वैल्यू की तुलना में, डेटासेट में असल वैल्यू? हैरानी की बात है कि इसका जवाब है, नहीं.
आपको रॉ डेटासेट की वैल्यू को ट्रेनिंग देने वाले के तौर पर दिखाने का सबसे अच्छा तरीका तय करना होगा फ़ीचर वेक्टर में वैल्यू. इस प्रोसेस को फ़ीचर इंजीनियरिंग, और यह मशीन लर्निंग का एक अहम हिस्सा है. फ़ीचर इंजीनियरिंग की सबसे आम तकनीकें ये हैं:
- नॉर्मलाइज़ेशन: बदला जा रहा है न्यूमेरिक वैल्यू को स्टैंडर्ड रेंज में रखा जा सकता है.
- बिनिंग (इसे इस नाम से भी जाना जाता है बकेटिंग): अंकों वाली वैल्यू को बदला जा रहा है रेंज के बकेट में वैल्यू.
इस इकाई में नॉर्मलाइज़िंग और बिनिंग के बारे में बताया गया है. अगली यूनिट, कैटगरिकल डेटा के साथ काम करना, में इस तरह की अन्य प्री-प्रोसेसिंग, जैसे कि स्ट्रिंग जैसे बिना संख्या वाले डेटा को फ़्लोटिंग पॉइंट वैल्यू में बदलना.
किसी फ़ीचर वेक्टर में मौजूद हर वैल्यू, फ़्लोटिंग-पॉइंट वैल्यू होनी चाहिए. हालांकि, कई सुविधाएं, स्वाभाविक रूप से स्ट्रिंग या अन्य बिना संख्या वाली वैल्यू हैं. इस वजह से, फ़ीचर इंजीनियरिंग का एक बड़ा हिस्सा बिना संख्या वाली वैल्यू को इस तरह दिखाता है अंकों वाली वैल्यू. आपको बाद के मॉड्यूल में इस तरह के काफ़ी कार्ड दिखेंगे.