एमएल में डेटा तैयार करना और फ़ीचर इंजीनियरिंग

मशीन लर्निंग, डेटा के पैटर्न का पता लगाने में हमारी मदद करती है. इन पैटर्न का इस्तेमाल करके, हम नए डेटा पॉइंट के बारे में अनुमान लगाते हैं. उन अनुमानों को सही करने के लिए, हमें डेटा को सही तरीके से डेटा बनाना और बदलना होगा. इस कोर्स में दो मुख्य चरण दिए गए हैं. हम यह भी देखेंगे कि इन चरणों में ट्रेनिंग/दिखने के क्या फ़ायदे हैं.

एक मशीन लर्निंग प्रोजेक्ट, जिसे पांच चरणों में बांटा गया है. 1. मशीन लर्निंग (एमएल) से जुड़ी समस्या के बारे में बताएं और
उसे हल के लिए सुझाव दें. 2. अपना डेटा सेट बनाएं. 3. डेटा बदलना.
4. मॉडल को प्रशिक्षित करें. 5. अनुमान लगाने के लिए मॉडल का इस्तेमाल करें.  इस कोर्स में डेटा सेट बनाने और डेटा में बदलाव करने के बारे में बताया गया है.

ज़रूरी शर्तें

इस कोर्स में ये चीज़ें शामिल हैं:

डेटा तैयारी और फ़ीचर इंजीनियरिंग के बारे में क्यों जानें?

आप सुविधा इंजीनियरिंग को मॉडल की मदद कर सकते हैं, ताकि वह डेटा सेट को उसी तरह समझ सकें जिस तरह आप बनाते हैं. सीखने वाले अक्सर मॉडल बनाने पर फ़ोकस करने वाले मशीन लर्निंग कोर्स में आते हैं और आखिर में उन्हें डेटा पर फ़ोकस करने के लिए ज़्यादा समय देना पड़ता है.

इस सवाल के लिए, अपना जवाब देखने के लिए मनचाहे ऐरो पर क्लिक करें:

अगर आपको अपने मशीन लर्निंग प्रोजेक्ट में, नीचे दिए गए किसी एक इलाके को बेहतर बनाने पर ध्यान देना हो, तो किस चीज़ से सबसे ज़्यादा असर पड़ेगा?
आपके डेटा की क्वालिटी और साइज़
सारा डेटा छिप जाता है. यह सच है कि आपके लर्निंग एल्गोरिदम या मॉडल आर्किटेक्चर को अपडेट करने पर, आपको अलग-अलग तरह के पैटर्न सीखने में मदद मिलेगी. हालांकि, अगर आपका डेटा खराब है, तो आप गलत तरीके से काम करने वाले फ़ंक्शन बना देंगे. आपके सेट किए गए शानदार एल्गोरिदम की तुलना में, डेटा सेट की क्वालिटी और साइज़ बहुत ज़रूरी है.
ऑप्टिमाइज़ेशन के नए एल्गोरिदम का इस्तेमाल करना
इससे, ऑप्टिमाइज़र की संख्या में बढ़ोतरी के बारे में पता चल सकता है. हालांकि, इससे आपके मॉडल पर इस सूची में मौजूद किसी अन्य सामान पर कोई खास असर नहीं पड़ेगा.
ज़्यादा जानकारी वाला नेटवर्क
एक डीप नेटवर्क आपके मॉडल को बेहतर बना सकता है. हालांकि, इसका असर इस सूची में मौजूद दूसरे आइटम के बराबर नहीं होगा.
चालाक नुकसान की ज़्यादा संभावना वाला फ़ंक्शन
बंद करें! हारने का बेहतर तरीका इस्तेमाल करके आप बड़ी जीत हासिल कर सकते हैं, लेकिन यह इस सूची में अब भी दूसरे आइटम के बाद दूसरे नंबर पर है.

अच्छे डेटा सेट को इकट्ठा करना क्यों ज़रूरी है?

Google Translate

"...न्यूरल मशीन के अनुवाद के बाद से, इस्तेमाल की जाने वाली यह क्वालिटी, हमारी ट्रेनिंग के डेटा के सबसे अच्छे सबसेट की पहचान करती है"

- सॉफ़्टवेयर इंजीनियर, Google Translate

Google Translate की टीम, ट्रेनिंग के लिए इस्तेमाल किए जाने वाले डेटा से ज़्यादा डेटा का इस्तेमाल कर सकती है. टीम ने अपने मॉडल में बदलाव करने के बजाय, अपने डेटा में मौजूद बेहतरीन सुविधाओं का इस्तेमाल करके बड़ी कामयाबी हासिल की है.

 

 

 

"...ज़्यादातर मामलों में, मैंने दिलचस्प दिखने वाली गड़बड़ियों को मैन्युअल तौर पर डीबग करने की कोशिश की, लेकिन उन्हें ट्रेनिंग डेटा से जुड़ी समस्याओं के तौर पर फिर से देखा जा सकता है." - सॉफ़्टवेयर इंजीनियर, Google Translate

आम तौर पर, "दिलचस्प नज़र डालने वाली" गड़बड़ियां डेटा की वजह से होती हैं. गड़बड़ी के डेटा की वजह से आपके मॉडल को गलत पैटर्न मिल सकते हैं, भले ही आप किसी भी मॉडलिंग तकनीक का इस्तेमाल करें.

 

 

ब्रेन का डायबिटिक रेटिनोपैथी प्रोजेक्ट

Google Brain के डायबेटिक रेटिनोपैथी प्रोजेक्ट ने इमेज को अलग-अलग कैटगरी में बांटकर, न्यूरल नेटवर्क आर्किटेक्चर को अपनाया. इसे इंसेप्शन के नाम से जाना गया. टीम ने मॉडल में बदलाव नहीं किए. इसके बजाय, नेत्र रोग विशेषज्ञों के लेबल वाले 1,20,000 उदाहरणों का डेटा सेट बनाकर उन्होंने कामयाबी हासिल की. (https://research.google.com/pubs/pub43022.html पर ज़्यादा जानें.)