कैटगरिकल डेटा में संभावित वैल्यू का खास सेट. उदाहरण के लिए:
- नैशनल पार्क में मौजूद जानवरों की अलग-अलग प्रजातियां
- किसी विशेष शहर में सड़कों के नाम
- ईमेल स्पैम है या नहीं
- घर के बाहरी हिस्सों को पेंट करने के लिए इस्तेमाल किए जाने वाले रंग
- बिन की गई संख्याएं, जो संख्यात्मक के साथ काम करना डेटा मॉड्यूल
नंबर, कैटगरी वाला डेटा भी हो सकते हैं
सही संख्या वाला डेटा को सही तरीके से गुणा किया जा सकता है. उदाहरण के लिए, ऐसा मॉडल जो इलाके के हिसाब से, किसी घर की वैल्यू का अनुमान लगाता है. ध्यान दें कि घर की कीमतों का आकलन करने के लिए, एक काम का मॉडल आम तौर पर इन सुविधाओं का इस्तेमाल करें. बाकी सब कुछ बराबर है, 200 वर्ग का घर मीटर की वैल्यू, 100 स्क्वेयर वाले किसी घर के मुकाबले करीब दोगुनी होनी चाहिए मीटर.
अक्सर, आपको उन सुविधाओं को इस रूप में प्रस्तुत करना चाहिए जिनमें पूर्णांक मान कैटगरी वाले डेटा का इस्तेमाल करें. उदाहरण के लिए, कोड सुविधा जिसमें मान पूर्णांक होते हैं. अगर आपको साफ़ तौर पर बताने की बजाय अंकों के आधार पर, आप मॉडल के लिए और उनके बीच पिन कोड के लिए एक से ज़्यादा कोड इस्तेमाल करें. इसका मतलब है कि मॉडल को यह कहा जा रहा है कि पिन कोड 20004 को बड़े सिग्नल के तौर पर पिन कोड के तौर पर दो बार (या आधे) के तौर पर इस्तेमाल करें 10,002 है. पिन कोड को कैटगरी वाले डेटा के तौर पर दिखाने पर, यह मॉडल हर पिन कोड को अलग-अलग अहमियत दें.
एन्कोडिंग
एन्कोडिंग का मतलब है कैटगरी या अन्य डेटा को संख्या वाले वेक्टर में बदलना
जिसे मॉडल ट्रेनिंग दे सके. यह कन्वर्ज़न ज़रूरी है, क्योंकि मॉडल ये काम कर सकते हैं
सिर्फ़ फ़्लोटिंग-पॉइंट वैल्यू पर ट्रेन करें; मॉडल इन स्ट्रिंग पर ट्रेनिंग नहीं कर सकते:
"dog"
या "maple"
. यह मॉड्यूल अलग-अलग जानकारी देता है
कैटगरी वाले डेटा को कोड में बदलने के तरीके.