मशीन लर्निंग मॉडल, इनपुट के उदाहरण सीधे देख, सुन या समझ नहीं सकता. इसके बजाय, आपको डेटा का प्रज़ेंटेशन बनाना होगा, ताकि मॉडल को डेटा की मुख्य क्वालिटी के लिए उपयोगी सहूलियत दी जा सके. इसका मतलब है कि किसी मॉडल को ट्रेनिंग देने के लिए, आपको सुविधाओं का ऐसा सेट चुनना होगा जो डेटा को सबसे सही तरीके से दिखा सके.
प्रतिनिधित्व
रॉ डेटा से लेकर सुविधाओं तक
इसका आइडिया, बाईं ओर मौजूद वेक्टर के हर हिस्से को एक या उससे ज़्यादा फ़ील्ड में, दाईं ओर मौजूद फ़ीचर वेक्टर में मैप करना है.
रॉ डेटा से लेकर सुविधाओं तक
रॉ डेटा से लेकर सुविधाओं तक
रॉ डेटा से लेकर सुविधाओं तक
- डिक्शनरी, {0, ...,V-1} में हर सड़क के नाम को किसी पूर्णांक से मैप करती है
- अब ऊपर दिए गए वन-हॉट वेक्टर को <i> के तौर पर दिखाएं
किसी अच्छी विशेषता के गुण
सुविधा की वैल्यू, डेटासेट में कुछ बार से ज़्यादा बार शून्य के अलावा किसी और वैल्यू के साथ दिखनी चाहिए.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
किसी अच्छी विशेषता के गुण
सुविधाओं का मतलब साफ़ तौर पर दिखना चाहिए.
user_age:23
user_age:123456789
किसी अच्छी विशेषता के गुण
सुविधाओं को "मैजिक" वैल्यू का इस्तेमाल नहीं करना चाहिए
(इसके बजाय, किसी और बूलियन सुविधा का इस्तेमाल करें, जैसे कि view_time_is_defined!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
किसी अच्छी विशेषता के गुण
किसी सुविधा की परिभाषा समय के साथ नहीं बदलनी चाहिए.
(दूसरे एमएल सिस्टम के आधार पर सावधान रहें!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
किसी अच्छी विशेषता के गुण
डिस्ट्रिब्यूशन में बहुत ज़्यादा आउटलायर नहीं होने चाहिए
आम तौर पर, सभी सुविधाएं एक जैसी रेंज में बदल जाती हैं, जैसे कि (-1, 1) या (0, 5).
द बिनिंग ट्रिक
द बिनिंग ट्रिक
- कई बूलियन बिन बनाएं, हर एक नई अनूठी सुविधा के साथ मैप करें
- मॉडल को हर बिन के लिए, अलग वैल्यू फ़िट करने की अनुमति देता है
अच्छी आदतें
अपने डेटा के बारे में जानना
- विज़ुअलाइज़: हिस्टोग्राम को प्लॉट करें.
- डीबग: डुप्लीकेट उदाहरण? वैल्यू मौजूद नहीं हैं? आउटलायर्स? क्या डेटा, डैशबोर्ड से सहमत है? क्या ट्रेनिंग और पुष्टि का डेटा एक जैसा है?
- मॉनिटर: सुविधा की संख्या, समय के साथ कितनी संख्या में उदाहरण दिए गए?