यहां दिए गए सवालों से, आपको एमएल के बुनियादी सिद्धांतों को बेहतर तरीके से समझने में मदद मिलती है.
अनुमान लगाने की क्षमता
सुपरवाइज़्ड एमएल मॉडल को, लेबल किए गए उदाहरणों वाले डेटासेट का इस्तेमाल करके ट्रेन किया जाता है. मॉडल, सुविधाओं से लेबल का अनुमान लगाने का तरीका सीखता है. हालांकि, किसी डेटासेट में मौजूद हर एलिमेंट में, भविष्य का अनुमान लगाने की सुविधा नहीं होती. कुछ मामलों में, सिर्फ़ कुछ सुविधाएं ही लेबल का अनुमान लगाती हैं. नीचे दिए गए डेटासेट में, कीमत को लेबल के तौर पर और बाकी कॉलम को सुविधाओं के तौर पर इस्तेमाल करें.
आपके हिसाब से, कार की कीमत का अनुमान लगाने के लिए इनमें से कौनसी तीन सुविधाएं सबसे ज़्यादा अहम हैं?
Color, height, make_model.
कार की ऊंचाई और रंग से, उसकी कीमत का पता नहीं चलता.
मील, गियरबॉक्स, make_model.
गियरबॉक्स, कीमत का मुख्य अनुमान नहीं लगाता.
Tire_size, wheel_base, year.
टायर का साइज़ और व्हील बेस, कार की कीमत का सटीक अनुमान नहीं लगाते.
Make_model, year, miles.
कार के ब्रैंड/मॉडल, साल, और माइलेज से उसकी कीमत का अनुमान लगाया जा सकता है.
सुपरवाइज़्ड और अनसुपरवाइज़्ड लर्निंग
समस्या के हिसाब से, आपको निगरानी में रखे गए डिवाइसों या निगरानी में नहीं रखे गए डिवाइसों के लिए, कोई एक तरीका अपनाना होगा.
उदाहरण के लिए, अगर आपको पहले से ही उस वैल्यू या कैटगरी के बारे में पता है जिसका अनुमान लगाना है, तो सुपरवाइज़्ड लर्निंग का इस्तेमाल किया जाएगा. हालांकि, अगर आपको यह जानना है कि आपके डेटासेट में, मिलते-जुलते उदाहरणों के सेगमेंटेशन या ग्रुपिंग मौजूद हैं या नहीं, तो आपको बिना निगरानी वाली लर्निंग का इस्तेमाल करना होगा.
मान लें कि आपके पास किसी ऑनलाइन शॉपिंग वेबसाइट के उपयोगकर्ताओं का डेटासेट है और इसमें ये कॉलम शामिल हैं:
अगर आपको साइट पर आने वाले उपयोगकर्ताओं के टाइप को समझना है, तो क्या आप सुपरवाइज़्ड या अनसुपरवाइज़्ड लर्निंग का इस्तेमाल करेंगे?
अनसुपरवाइज़्ड लर्निंग.
हम चाहते हैं कि मॉडल, मिलते-जुलते ग्राहकों के ग्रुप को क्लस्टर करे. इसलिए, हम बिना निगरानी वाली लर्निंग का इस्तेमाल करेंगे. मॉडल के उपयोगकर्ताओं को क्लस्टर में बांटने के बाद,
हम हर क्लस्टर के लिए अपने नाम बनाते हैं. उदाहरण के लिए,
"छूट पाने वाले," "ऑफ़र खोजने वाले," "सर्फ़र," "वफादार," और "भटकने वाले."
सुपरवाइज़्ड लर्निंग, क्योंकि मुझे यह अनुमान लगाना है कि उपयोगकर्ता किस क्लास से है.
सुपरवाइज़्ड लर्निंग में, डेटासेट में वह लेबल होना चाहिए जिसका अनुमान लगाया जा रहा है. डेटासेट में, उपयोगकर्ता की कैटगरी के बारे में बताने वाला कोई लेबल नहीं है.
मान लें कि आपके पास घरों के लिए ऊर्जा खर्च का डेटासेट है, जिसमें ये कॉलम हैं:
नए बनाए गए घर के लिए, हर साल इस्तेमाल किए गए किलोवाट-घंटे का अनुमान लगाने के लिए, किस तरह के एमएल का इस्तेमाल किया जाएगा?
अनसुपरवाइज़्ड लर्निंग.
अनसुपरवाइज़्ड लर्निंग में, बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है. इस उदाहरण में,
"हर साल इस्तेमाल किए गए किलोवॉट घंटे” लेबल होगा, क्योंकि यह वह वैल्यू है जिसका अनुमान मॉडल को लगाना है.
सुपरवाइज़्ड लर्निंग.
सुपरवाइज़्ड लर्निंग, लेबल किए गए उदाहरणों पर ट्रेनिंग देती है. इस डेटासेट में, "हर साल इस्तेमाल किए गए किलोवॉट घंटे" लेबल होगा, क्योंकि यह वह वैल्यू है जिसका अनुमान मॉडल को लगाना है. इनमें ये सुविधाएं शामिल होंगी:
"खास फ़ीचर,” "जगह की जानकारी,” और "बनने का साल.”
मान लें कि आपके पास फ़्लाइट का डेटासेट है, जिसमें ये कॉलम हैं:
अगर आपको बस के टिकट की कीमत का अनुमान लगाना है, तो क्या आप रेग्रेसन या क्लासिफ़िकेशन का इस्तेमाल करेंगे?
कैटगरी
क्लासिफ़िकेशन मॉडल का आउटपुट एक अलग वैल्यू होता है,
आम तौर पर यह एक शब्द होता है. इस मामले में, कोच टिकट की कीमत एक संख्या है.
रिग्रेशन
रेग्रेसन मॉडल का आउटपुट, संख्या वाली वैल्यू होती है.
क्या डेटासेट के आधार पर, कोच टिकट की कीमत को "ज़्यादा", "औसत" या "कम" के तौर पर बांटने के लिए, कैटगरी तय करने वाले मॉडल को ट्रेन किया जा सकता है?
नहीं. क्लासिफ़िकेशन मॉडल नहीं बनाया जा सकता.
coach_ticket_cost
वैल्यू, कैटगरी वाली नहीं, बल्कि संख्या वाली होती हैं.
थोड़े से काम से, कैटगरी तय करने वाला मॉडल बनाया जा सकता है.
हां, लेकिन हमें पहले coach_ticket_cost
कॉलम में मौजूद अंकों वाली वैल्यू को कैटगरी वाली वैल्यू में बदलना होगा.
डेटासेट से क्लासिफ़िकेशन मॉडल बनाया जा सकता है.
आपको कुछ ऐसा करना होगा:
- यह पता लगाएं कि आपके जाने वाले हवाई अड्डे से, मकसद के हवाई अड्डे तक जाने के लिए टिकट की औसत कीमत कितनी है.
- "ज़्यादा," "औसत," और "कम" के लिए थ्रेशोल्ड तय करें.
- अनुमानित लागत की तुलना थ्रेशोल्ड से करें और वैल्यू की कैटगरी दिखाएं.
नहीं. क्लासिफ़िकेशन मॉडल सिर्फ़ दो कैटगरी का अनुमान लगाते हैं, जैसे कि
spam
या not_spam
. इस मॉडल को तीन कैटगरी का अनुमान लगाना होगा.
क्लासिफ़िकेशन मॉडल, कई कैटगरी का अनुमान लगा सकते हैं. इन्हें
मल्टीक्लास क्लासिफ़िकेशन मॉडल कहा जाता है.
ट्रेनिंग और आकलन
किसी मॉडल को ट्रेन करने के बाद, हम लेबल किए गए उदाहरणों वाले डेटासेट का इस्तेमाल करके उसका आकलन करते हैं. साथ ही, मॉडल की अनुमानित वैल्यू की तुलना लेबल की असल वैल्यू से करते हैं.
सवाल के लिए दो सबसे सही जवाब चुनें.
अगर मॉडल के अनुमान बहुत अलग हैं, तो उन्हें बेहतर बनाने के लिए क्या किया जा सकता है?
बड़े और अलग-अलग तरह के डेटासेट का इस्तेमाल करके, मॉडल को फिर से ट्रेन करें.
ज़्यादा उदाहरणों और वैल्यू की विस्तृत रेंज वाले डेटासेट पर ट्रेन किए गए मॉडल, बेहतर अनुमान दे सकते हैं. इसकी वजह यह है कि मॉडल में, फ़ीचर और लेबल के बीच के संबंध के लिए बेहतर सामान्य समाधान होता है.
ऐसे मॉडल को ठीक नहीं किया जा सकता जिसका अनुमान बहुत दूर है.
ऐसे मॉडल को ठीक किया जा सकता है जिसका अनुमान गलत है. ज़्यादातर मॉडल को तब तक कई राउंड की ट्रेनिंग की ज़रूरत होती है, जब तक वे काम के अनुमान नहीं लगा लेते.
ट्रेनिंग का कोई दूसरा तरीका आज़माएं. उदाहरण के लिए, अगर आपने सुपरवाइज़्ड ऐप्रोच का इस्तेमाल किया है, तो अनसुपरवाइज़्ड ऐप्रोच आज़माएं.
ट्रेनिंग के किसी दूसरे तरीके से बेहतर अनुमान नहीं मिलेंगे.
मॉडल को फिर से ट्रेन करें. हालांकि, सिर्फ़ उन सुविधाओं का इस्तेमाल करें जिनके बारे में आपको लगता है कि वे लेबल के लिए सबसे ज़्यादा सटीक अनुमान लगा सकती हैं.
कम सुविधाओं वाले मॉडल को फिर से ट्रेनिंग देकर, बेहतर अनुमान लगाने वाला मॉडल बनाया जा सकता है.
अब आप एमएल की अपनी यात्रा में अगला कदम उठाने के लिए तैयार हैं:
लोग और एआई की गाइडबुक. अगर आपको एआई का इस्तेमाल करने के लिए, Google के कर्मचारियों, इंडस्ट्री के विशेषज्ञों, और अकादमिक रिसर्च से मिले तरीकों, सबसे सही तरीकों, और उदाहरणों का सेट चाहिए.
समस्या को फ़्रेम करना. अगर आपको एमएल मॉडल बनाने और इस दौरान आम तौर पर होने वाली गड़बड़ियों से बचने के लिए, ऐसा तरीका चाहिए जिसे पहले से आज़माया जा चुका हो.
मशीन लर्निंग क्रैश कोर्स. अगर आप एआई के बारे में ज़्यादा जानने के लिए, बारीकी से और खुद आज़माकर सीखने के लिए तैयार हैं.