प्रतिनिधित्व

मशीन लर्निंग मॉडल, इनपुट के उदाहरण सीधे देख, सुन या समझ नहीं सकता. इसके बजाय, आपको डेटा का प्रज़ेंटेशन बनाना होगा, ताकि मॉडल को डेटा की मुख्य क्वालिटी के लिए उपयोगी सहूलियत दी जा सके. इसका मतलब है कि किसी मॉडल को ट्रेनिंग देने के लिए, आपको सुविधाओं का ऐसा सेट चुनना होगा जो डेटा को सबसे सही तरीके से दिखा सके.

प्रतिनिधित्व

इसका आइडिया, बाईं ओर मौजूद वेक्टर के हर हिस्से को एक या उससे ज़्यादा फ़ील्ड में, दाईं ओर मौजूद फ़ीचर वेक्टर में मैप करना है.

रॉ डेटा को फ़ीचर इंजीनियरिंग नाम की प्रोसेस के ज़रिए, फ़ीचर वेक्टर से मैप किया जाता है.
ऐसी सुविधा का उदाहरण जिसे रॉ डेटा से सीधे कॉपी किया जा सकता है
स्ट्रिंग फ़ीचर (सड़क का नाम) का उदाहरण, जिसे रॉ डेटा से सीधे कॉपी नहीं किया जा सकता
किसी स्ट्रिंग मान की मैपिंग करना (
  • डिक्शनरी, {0, ...,V-1} में हर सड़क के नाम को किसी पूर्णांक से मैप करती है
  • अब ऊपर दिए गए वन-हॉट वेक्टर को <i> के तौर पर दिखाएं

सुविधा की वैल्यू, डेटासेट में कुछ बार से ज़्यादा बार शून्य के अलावा किसी और वैल्यू के साथ दिखनी चाहिए.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

सुविधाओं का मतलब साफ़ तौर पर दिखना चाहिए.

user_age:23

user_age:123456789

सुविधाओं को "मैजिक" वैल्यू का इस्तेमाल नहीं करना चाहिए

(इसके बजाय, किसी और बूलियन सुविधा का इस्तेमाल करें, जैसे कि view_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

किसी सुविधा की परिभाषा समय के साथ नहीं बदलनी चाहिए.

(दूसरे एमएल सिस्टम के आधार पर सावधान रहें!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

डिस्ट्रिब्यूशन में बहुत ज़्यादा आउटलायर नहीं होने चाहिए

आम तौर पर, सभी सुविधाएं एक जैसी रेंज में बदल जाती हैं, जैसे कि (-1, 1) या (0, 5).

आउटलेयर के साथ डिस्ट्रिब्यूशन और कैप के साथ डिस्ट्रिब्यूशन
जगह के आधार पर फ़िटिंग कर्व के साथ वितरण को दिखाने वाला ग्राफ़
जगह के आधार पर फ़िटिंग कर्व के साथ वितरण को दिखाने वाला ग्राफ़
  • कई बूलियन बिन बनाएं, हर एक नई अनूठी सुविधा के साथ मैप करें
  • मॉडल को हर बिन के लिए, अलग वैल्यू फ़िट करने की अनुमति देता है

अपने डेटा के बारे में जानना

  • विज़ुअलाइज़: हिस्टोग्राम को प्लॉट करें.
  • डीबग: डुप्लीकेट उदाहरण? वैल्यू मौजूद नहीं हैं? आउटलायर्स? क्या डेटा, डैशबोर्ड से सहमत है? क्या ट्रेनिंग और पुष्टि का डेटा एक जैसा है?
  • मॉनिटर: सुविधा की संख्या, समय के साथ कितनी संख्या में उदाहरण दिए गए?