कैटगरी वाले डेटा के साथ काम करना

कैटगरिकल डेटा में संभावित वैल्यू का खास सेट. उदाहरण के लिए:

  • नैशनल पार्क में मौजूद जानवरों की अलग-अलग प्रजातियां
  • किसी विशेष शहर में सड़कों के नाम
  • ईमेल स्पैम है या नहीं
  • घर के बाहरी हिस्सों को पेंट करने के लिए इस्तेमाल किए जाने वाले रंग
  • बाइन्ड किए गए नंबर, जिनके बारे में संख्या वाले डेटा के साथ काम करना मॉड्यूल में बताया गया है

संख्याएं भी कैटगरी वाला डेटा हो सकती हैं

सही न्यूमेरिक डेटा को सही तरीके से गुणा किया जा सकता है. उदाहरण के लिए, एक ऐसा मॉडल लें जो किसी इलाके के आधार पर, घर की कीमत का अनुमान लगाता है. ध्यान दें कि घर की कीमतों का आकलन करने के लिए, आम तौर पर काम का मॉडल, सैकड़ों सुविधाओं पर निर्भर करता है. हालांकि, अन्य सभी चीज़ें एक जैसी होने पर, 200 वर्ग मीटर के घर की कीमत, 100 वर्ग मीटर के एक जैसे घर की कीमत से करीब दोगुनी होनी चाहिए.

अक्सर, आपको उन सुविधाओं को इस रूप में प्रस्तुत करना चाहिए जिनमें पूर्णांक मान कैटगरी वाले डेटा का इस्तेमाल करें. उदाहरण के लिए, पिन कोड की ऐसी सुविधा जिसमें वैल्यू पूर्णांक हों. अगर आपको साफ़ तौर पर बताने की बजाय अंकों के आधार पर, आप मॉडल के लिए और उनके बीच के बीच पिन कोड डाल सकते हैं. इसका मतलब है कि मॉडल को यह कहा जा रहा है कि पिन कोड 20004 को बड़े सिग्नल के तौर पर पिन कोड के तौर पर दो बार (या आधे) के तौर पर इस्तेमाल करें 10,002 है. पिन कोड को कैटगरी वाले डेटा के तौर पर दिखाने पर, यह मॉडल हर पिन कोड को अलग-अलग अहमियत दें.

एन्कोडिंग

एन्कोडिंग का मतलब है कैटगरी या अन्य डेटा को संख्या वाले वेक्टर में बदलना जिसे मॉडल ट्रेनिंग दे सके. यह कन्वर्ज़न ज़रूरी है, क्योंकि मॉडल ये काम कर सकते हैं सिर्फ़ फ़्लोटिंग-पॉइंट वैल्यू पर ट्रेन करें; मॉडल इन स्ट्रिंग पर ट्रेनिंग नहीं कर सकते: "dog" या "maple". यह मॉड्यूल अलग-अलग जानकारी देता है कैटगरी वाले डेटा को कोड में बदलने के तरीके.