कैटगरी से जुड़े डेटा के साथ काम करना

कैटगरिकल डेटा में संभावित वैल्यू का खास सेट. उदाहरण के लिए:

  • नैशनल पार्क में मौजूद जानवरों की अलग-अलग प्रजातियां
  • किसी विशेष शहर में सड़कों के नाम
  • ईमेल स्पैम है या नहीं
  • घर के बाहरी हिस्सों को पेंट करने के लिए इस्तेमाल किए जाने वाले रंग
  • बिन की गई संख्याएं, जो संख्यात्मक के साथ काम करना डेटा मॉड्यूल

नंबर, कैटगरी वाला डेटा भी हो सकते हैं

सही संख्या वाला डेटा को सही तरीके से गुणा किया जा सकता है. उदाहरण के लिए, ऐसा मॉडल जो इलाके के हिसाब से, किसी घर की वैल्यू का अनुमान लगाता है. ध्यान दें कि घर की कीमतों का आकलन करने के लिए, एक काम का मॉडल आम तौर पर इन सुविधाओं का इस्तेमाल करें. बाकी सब कुछ बराबर है, 200 वर्ग का घर मीटर की वैल्यू, 100 स्क्वेयर वाले किसी घर के मुकाबले करीब दोगुनी होनी चाहिए मीटर.

अक्सर, आपको उन सुविधाओं को इस रूप में प्रस्तुत करना चाहिए जिनमें पूर्णांक मान कैटगरी वाले डेटा का इस्तेमाल करें. उदाहरण के लिए, कोड सुविधा जिसमें मान पूर्णांक होते हैं. अगर आपको साफ़ तौर पर बताने की बजाय अंकों के आधार पर, आप मॉडल के लिए और उनके बीच पिन कोड के लिए एक से ज़्यादा कोड इस्तेमाल करें. इसका मतलब है कि मॉडल को यह कहा जा रहा है कि पिन कोड 20004 को बड़े सिग्नल के तौर पर पिन कोड के तौर पर दो बार (या आधे) के तौर पर इस्तेमाल करें 10,002 है. पिन कोड को कैटगरी वाले डेटा के तौर पर दिखाने पर, यह मॉडल हर पिन कोड को अलग-अलग अहमियत दें.

एन्कोडिंग

एन्कोडिंग का मतलब है कैटगरी या अन्य डेटा को संख्या वाले वेक्टर में बदलना जिसे मॉडल ट्रेनिंग दे सके. यह कन्वर्ज़न ज़रूरी है, क्योंकि मॉडल ये काम कर सकते हैं सिर्फ़ फ़्लोटिंग-पॉइंट वैल्यू पर ट्रेन करें; मॉडल इन स्ट्रिंग पर ट्रेनिंग नहीं कर सकते: "dog" या "maple". यह मॉड्यूल अलग-अलग जानकारी देता है कैटगरी वाले डेटा को कोड में बदलने के तरीके.