मशीन लर्निंग क्रैश कोर्स का नया और बेहतर वर्शन अगस्त 2024 में लॉन्च होगा. हमारे साथ बने रहें!

इस पेज का अनुवाद Cloud Translation API से किया गया है.

प्रतिनिधित्व

मशीन लर्निंग मॉडल, इनपुट के उदाहरण सीधे देख, सुन या समझ नहीं सकता. इसके बजाय, आपको डेटा का प्रज़ेंटेशन बनाना होगा, ताकि मॉडल को डेटा की मुख्य क्वालिटी के लिए उपयोगी सहूलियत दी जा सके. इसका मतलब है कि किसी मॉडल को ट्रेनिंग देने के लिए, आपको सुविधाओं का ऐसा सेट चुनना होगा जो डेटा को सबसे सही तरीके से दिखा सके.

प्रतिनिधित्व

रॉ डेटा से लेकर सुविधाओं तक

इसका आइडिया, बाईं ओर मौजूद वेक्टर के हर हिस्से को एक या उससे ज़्यादा फ़ील्ड में, दाईं ओर मौजूद फ़ीचर वेक्टर में मैप करना है.

रॉ डेटा को फ़ीचर इंजीनियरिंग नाम की प्रोसेस के ज़रिए, फ़ीचर वेक्टर से मैप किया जाता है.

रॉ डेटा से लेकर सुविधाओं तक

ऐसी सुविधा का उदाहरण जिसे रॉ डेटा से सीधे कॉपी किया जा सकता है

रॉ डेटा से लेकर सुविधाओं तक

स्ट्रिंग फ़ीचर (सड़क का नाम) का उदाहरण, जिसे रॉ डेटा से सीधे कॉपी नहीं किया जा सकता

रॉ डेटा से लेकर सुविधाओं तक

डिक्शनरी, {0, ...,V-1} में हर सड़क के नाम को किसी पूर्णांक से मैप करती है
अब ऊपर दिए गए वन-हॉट वेक्टर को <i> के तौर पर दिखाएं

किसी अच्छी विशेषता के गुण

सुविधा की वैल्यू, डेटासेट में कुछ बार से ज़्यादा बार शून्य के अलावा किसी और वैल्यू के साथ दिखनी चाहिए.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

किसी अच्छी विशेषता के गुण

सुविधाओं का मतलब साफ़ तौर पर दिखना चाहिए.

user_age:23

user_age:123456789

किसी अच्छी विशेषता के गुण

सुविधाओं को "मैजिक" वैल्यू का इस्तेमाल नहीं करना चाहिए

(इसके बजाय, किसी और बूलियन सुविधा का इस्तेमाल करें, जैसे कि view_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

किसी अच्छी विशेषता के गुण

किसी सुविधा की परिभाषा समय के साथ नहीं बदलनी चाहिए.

(दूसरे एमएल सिस्टम के आधार पर सावधान रहें!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

किसी अच्छी विशेषता के गुण

डिस्ट्रिब्यूशन में बहुत ज़्यादा आउटलायर नहीं होने चाहिए

आम तौर पर, सभी सुविधाएं एक जैसी रेंज में बदल जाती हैं, जैसे कि (-1, 1) या (0, 5).

आउटलेयर के साथ डिस्ट्रिब्यूशन और कैप के साथ डिस्ट्रिब्यूशन

द बिनिंग ट्रिक

जगह के आधार पर फ़िटिंग कर्व के साथ वितरण को दिखाने वाला ग्राफ़

द बिनिंग ट्रिक

कई बूलियन बिन बनाएं, हर एक नई अनूठी सुविधा के साथ मैप करें
मॉडल को हर बिन के लिए, अलग वैल्यू फ़िट करने की अनुमति देता है

अच्छी आदतें

अपने डेटा के बारे में जानना

विज़ुअलाइज़: हिस्टोग्राम को प्लॉट करें.
डीबग: डुप्लीकेट उदाहरण? वैल्यू मौजूद नहीं हैं? आउटलायर्स? क्या डेटा, डैशबोर्ड से सहमत है? क्या ट्रेनिंग और पुष्टि का डेटा एक जैसा है?
मॉनिटर: सुविधा की संख्या, समय के साथ कितनी संख्या में उदाहरण दिए गए?

इस वीडियो लेक्चर को आवाज़ से डब करने के लिए, मशीन लर्निंग तकनीक का इस्तेमाल किया गया. कृपया आवाज़ को डब करने वाली हमारी टेक्नोलॉजी को बेहतर बनाने में हमारी मदद करें. गड़बड़ी की रिपोर्ट और सुझाव सबमिट करने के लिए, ऊपर दिए गए 'सुझाव भेजें' पर क्लिक करें.

अंग्रेज़ी ऑडियो को बदलने के लिए, पेज के सबसे नीचे बाईं ओर मौजूद ड्रॉप-डाउन मेन्यू से अंग्रेज़ी चुनें.