यहां दिए गए सवालों से, आपको एमएल के बुनियादी सिद्धांतों को बेहतर तरीके से समझने में मदद मिलती है.
अनुमान लगाने की क्षमता
सुपरवाइज़्ड एमएल मॉडल को, लेबल किए गए उदाहरणों वाले डेटासेट का इस्तेमाल करके ट्रेन किया जाता है. मॉडल, सुविधाओं से लेबल का अनुमान लगाने का तरीका सीखता है. हालांकि, किसी डेटासेट में मौजूद हर एलिमेंट में, भविष्य का अनुमान लगाने की सुविधा नहीं होती. कुछ मामलों में, सिर्फ़ कुछ सुविधाएं ही लेबल के अनुमान के तौर पर काम करती हैं. नीचे दिए गए डेटासेट में, कीमत को लेबल के तौर पर और बाकी कॉलम को सुविधाओं के तौर पर इस्तेमाल करें.
आपके हिसाब से, कार की कीमत का अनुमान लगाने के लिए इनमें से कौनसी तीन सुविधाएं सबसे ज़्यादा अहम हैं?
Make_model, year, miles.
कार के ब्रैंड/मॉडल, साल, और माइलेज से उसकी कीमत का अनुमान लगाया जा सकता है.
Color, height, make_model.
कार की ऊंचाई और रंग से, उसकी कीमत का अनुमान नहीं लगाया जा सकता.
मील, गियरबॉक्स, make_model.
गियरबॉक्स, कीमत का मुख्य अनुमान नहीं लगाता.
Tire_size, wheel_base, year.
टायर का साइज़ और व्हील बेस, कार की कीमत का सटीक अनुमान नहीं लगाते.
सुपरवाइज़्ड और अनसुपरवाइज़्ड लर्निंग
समस्या के हिसाब से, आपको निगरानी में रखे गए डिवाइसों या निगरानी में नहीं रखे गए डिवाइसों के लिए, कोई एक तरीका अपनाना होगा.
उदाहरण के लिए, अगर आपको पहले से ही उस वैल्यू या कैटगरी के बारे में पता है जिसका अनुमान लगाना है, तो सुपरवाइज़्ड लर्निंग का इस्तेमाल किया जाएगा. हालांकि, अगर आपको यह जानना है कि आपके डेटासेट में, मिलते-जुलते उदाहरणों के सेगमेंटेशन या ग्रुपिंग मौजूद हैं या नहीं, तो आपको बिना निगरानी वाली लर्निंग का इस्तेमाल करना होगा.
मान लें कि आपके पास किसी ऑनलाइन शॉपिंग वेबसाइट के उपयोगकर्ताओं का डेटासेट है और इसमें ये कॉलम शामिल हैं:
अगर आपको यह समझना है कि साइट पर कौनसे तरह के उपयोगकर्ता आते हैं, तो क्या आप सुपरवाइज़्ड या अनसुपरवाइज़्ड लर्निंग का इस्तेमाल करेंगे?
अनसुपरवाइज़्ड लर्निंग.
हम चाहते हैं कि मॉडल, मिलते-जुलते ग्राहकों के ग्रुप को क्लस्टर करे. इसलिए, हम बिना निगरानी वाली लर्निंग का इस्तेमाल करेंगे. मॉडल के उपयोगकर्ताओं को क्लस्टर में बांटने के बाद,
हम हर क्लस्टर के लिए अपने नाम बनाते हैं. उदाहरण के लिए,
"छूट पाने वाले," "ऑफ़र खोजने वाले," "सर्फ़र," "वफादार," और "भटकने वाले."
सुपरवाइज़्ड लर्निंग, क्योंकि मुझे यह अनुमान लगाना है कि उपयोगकर्ता किस क्लास का है.
सुपरवाइज़्ड लर्निंग में, डेटासेट में वह लेबल होना चाहिए जिसका अनुमान लगाया जा रहा है. डेटासेट में, उपयोगकर्ता की कैटगरी के बारे में बताने वाला कोई लेबल नहीं है.
मान लें कि आपके पास घरों के लिए ऊर्जा खर्च का डेटासेट है, जिसमें ये कॉलम हैं:
नए बनाए गए घर के लिए, हर साल इस्तेमाल किए गए किलोवाट-घंटे का अनुमान लगाने के लिए, किस तरह के एमएल का इस्तेमाल किया जाएगा?
सुपरवाइज़्ड लर्निंग.
सुपरवाइज़्ड लर्निंग, लेबल किए गए उदाहरणों पर ट्रेनिंग देती है. इस डेटासेट में, "हर साल इस्तेमाल किए गए किलोवॉट घंटे" लेबल होगा, क्योंकि यह वह वैल्यू है जिसका अनुमान मॉडल को लगाना है. इनमें ये सुविधाएं शामिल होंगी:
"खास फ़ीचर,” "जगह की जानकारी,” और "बनने का साल.”
अनसुपरवाइज़्ड लर्निंग.
अनसुपरवाइज़्ड लर्निंग में, बिना लेबल वाले उदाहरणों का इस्तेमाल किया जाता है. इस उदाहरण में,
"हर साल इस्तेमाल किए गए किलोवॉट घंटे” लेबल होगा, क्योंकि यह वह वैल्यू है जिसका अनुमान मॉडल को लगाना है.
मान लें कि आपके पास फ़्लाइट का डेटासेट है, जिसमें ये कॉलम हैं:
अगर आपको बस के टिकट की कीमत का अनुमान लगाना है, तो क्या आप रेग्रेसन या क्लासिफ़िकेशन का इस्तेमाल करेंगे?
रिग्रेशन
रेग्रेसन मॉडल का आउटपुट, संख्या वाली वैल्यू होती है.
कैटगरी
क्लासिफ़िकेशन मॉडल का आउटपुट एक अलग वैल्यू होता है,
आम तौर पर यह कोई शब्द होता है. इस मामले में, कोच टिकट की कीमत एक संख्या है.
क्या डेटासेट के आधार पर, कोच टिकट की कीमत को "ज़्यादा", "औसत" या "कम" के तौर पर बांटने के लिए, कैटगरी तय करने वाले मॉडल को ट्रेन किया जा सकता है?
हां, लेकिन हमें पहले coach_ticket_cost
कॉलम में मौजूद अंकों वाली वैल्यू को कैटगरी वाली वैल्यू में बदलना होगा.
डेटासेट से क्लासिफ़िकेशन मॉडल बनाया जा सकता है.
आपको कुछ ऐसा करना होगा:
- यह पता लगाएं कि आपके जाने वाले हवाई अड्डे से, मकसद के हवाई अड्डे तक के टिकट की औसत कीमत क्या है.
- "ज़्यादा," "औसत," और "कम" के लिए थ्रेशोल्ड तय करें.
- अनुमानित लागत की तुलना थ्रेशोल्ड से करें और वैल्यू की कैटगरी दिखाएं.
नहीं. क्लासिफ़िकेशन मॉडल नहीं बनाया जा सकता.
coach_ticket_cost
वैल्यू, कैटगरी वाली नहीं, बल्कि संख्या वाली होती हैं.
थोड़े से काम से, कैटगरी तय करने वाला मॉडल बनाया जा सकता है.
नहीं. क्लासिफ़िकेशन मॉडल सिर्फ़ दो कैटगरी का अनुमान लगाते हैं, जैसे कि
spam
या not_spam
. इस मॉडल को तीन कैटगरी का अनुमान लगाना होगा.
क्लासिफ़िकेशन मॉडल, कई कैटगरी का अनुमान लगा सकते हैं. इन्हें
मल्टीक्लास क्लासिफ़िकेशन मॉडल कहा जाता है.
ट्रेनिंग और आकलन
किसी मॉडल को ट्रेन करने के बाद, हम लेबल किए गए उदाहरणों वाले डेटासेट का इस्तेमाल करके उसका आकलन करते हैं. साथ ही, मॉडल की अनुमानित वैल्यू की तुलना लेबल की असल वैल्यू से करते हैं.
सवाल के लिए दो सबसे सही जवाब चुनें.
अगर मॉडल के अनुमान बहुत अलग हैं, तो उन्हें बेहतर बनाने के लिए क्या किया जा सकता है?
मॉडल को फिर से ट्रेन करें. हालांकि, सिर्फ़ उन सुविधाओं का इस्तेमाल करें जिनके बारे में आपको लगता है कि वे लेबल के लिए सबसे ज़्यादा सटीक अनुमान लगा सकती हैं.
कम सुविधाओं वाले मॉडल को फिर से ट्रेनिंग देकर, बेहतर अनुमान लगाने वाला मॉडल बनाया जा सकता है.
ऐसे मॉडल को ठीक नहीं किया जा सकता जिसका अनुमान बहुत दूर है.
ऐसे मॉडल को ठीक किया जा सकता है जिसका अनुमान गलत है. ज़्यादातर मॉडल को तब तक कई राउंड की ट्रेनिंग की ज़रूरत होती है, जब तक वे काम के अनुमान नहीं लगा लेते.
बड़े और अलग-अलग तरह के डेटासेट का इस्तेमाल करके, मॉडल को फिर से ट्रेन करें.
ज़्यादा उदाहरणों और वैल्यू की विस्तृत रेंज वाले डेटासेट पर ट्रेन किए गए मॉडल, बेहतर अनुमान दे सकते हैं. इसकी वजह यह है कि मॉडल में, फ़ीचर और लेबल के बीच के संबंध के लिए बेहतर सामान्य समाधान होता है.
ट्रेनिंग का कोई दूसरा तरीका आज़माएं. उदाहरण के लिए, अगर आपने सुपरवाइज़्ड ऐप्रोच का इस्तेमाल किया है, तो अनसुपरवाइज़्ड ऐप्रोच आज़माएं.
ट्रेनिंग के किसी दूसरे तरीके से बेहतर अनुमान नहीं मिलेंगे.
अब आप एमएल की अपनी यात्रा में अगला कदम उठाने के लिए तैयार हैं:
लोग और एआई की गाइडबुक. अगर आपको एआई का इस्तेमाल करने के लिए, Google के कर्मचारियों, इंडस्ट्री के विशेषज्ञों, और अकादमिक रिसर्च से मिले तरीकों, सबसे सही तरीकों, और उदाहरणों का सेट चाहिए.
समस्या को फ़्रेम करना. अगर आपको एमएल मॉडल बनाने और इस दौरान आम तौर पर होने वाली गलतियों से बचने के लिए, फ़ील्ड में आज़माया गया कोई तरीका चाहिए.
मशीन लर्निंग क्रैश कोर्स. अगर आप एआई के बारे में ज़्यादा जानने के लिए, बारीकी से और खुद आज़माकर सीखने के लिए तैयार हैं.