सुपरवाइज़्ड लर्निंग

सुपरवाइज़्ड लर्निंग के टास्क अच्छी तरह से तय किए गए हैं और इन्हें कई स्थितियों में लागू किया जा सकता है. जैसे- स्पैम की पहचान करना या बारिश या बर्फ़बारी का अनुमान लगाना.

निगरानी में रखे जाने वाले बेसिक लर्निंग के कॉन्सेप्ट

सुपरवाइज़्ड मशीन लर्निंग, इन मुख्य सिद्धांतों पर आधारित है:

  • डेटा
  • मॉडल
  • ट्रेनिंग
  • मूल्यांकन हो रहा है
  • अनुमान

डेटा

एमएल की वजह से डेटा पर असर पड़ता है. डेटा, शब्दों और संख्याओं के रूप में टेबल में स्टोर किया जाता है या इमेज और ऑडियो फ़ाइलों में कैप्चर किए गए पिक्सल और वेवफ़ॉर्म की वैल्यू के रूप में मिलता है. हम मिलते-जुलते डेटा को डेटासेट में सेव करते हैं. उदाहरण के लिए, हमारे पास नीचे दी गई दिखने वाली चीज़ों का डेटासेट हो सकता है:

  • बिल्लियों के चित्र
  • घरों की कीमतें
  • मौसम की जानकारी

डेटासेट में अलग-अलग उदाहरण होते हैं. इनमें सुविधाएं और एक लेबल शामिल होता है. आपके हिसाब से एक उदाहरण ऐसा हो सकता है, जिसे स्प्रेडशीट में एक लाइन में दिखाया गया हो. सुविधाएं ऐसी वैल्यू होती हैं जिनका इस्तेमाल, निगरानी में रखा गया मॉडल, लेबल का अनुमान लगाने के लिए करता है. "जवाब" या वह वैल्यू होती है जिसका लेबल हम मॉडल से अनुमान लगाना चाहते हैं. बारिश का अनुमान लगाने वाले मौसम के मॉडल में ये सुविधाएं शामिल हो सकती हैं: अक्षांश, देशांतर, तापमान, नमीलता, क्लाउड कवरेज, पवन की दिशा, और वायु की दिशा. लेबल, रेनफ़ॉल की रकम दिखाएगा.

जिन उदाहरणों में सुविधाएं और लेबल, दोनों शामिल होते हैं उन्हें लेबल किए गए उदाहरण कहा जाता है.

लेबल किए गए दो उदाहरण

प्लेसहोल्डर इमेज।

वहीं दूसरी ओर, बिना लेबल वाले उदाहरणों में सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. मॉडल बनाने के बाद, मॉडल सुविधाओं से लेबल का अनुमान लगाता है.

बिना लेबल वाले दो उदाहरण

प्लेसहोल्डर इमेज।

डेटासेट की विशेषताएं

डेटासेट की विशेषताएं उसके साइज़ और विविधता से जुड़ी होती हैं. साइज़ से उदाहरणों की संख्या पता चलती है. विविधता से पता चलता है कि उन उदाहरणों में कौनसी रेंज शामिल है. अच्छे डेटासेट में बड़े और बहुत सारे अलग-अलग तरह के डेटासेट होते हैं.

कुछ डेटासेट बड़े और अलग-अलग तरह के होते हैं. हालांकि, कुछ डेटासेट बड़े होते हैं, लेकिन उनमें विविधता कम होती है. कुछ डेटासेट छोटे, लेकिन बहुत अलग-अलग होते हैं. दूसरे शब्दों में, एक बड़ा डेटासेट ज़रूरत के मुताबिक विविधता की गारंटी नहीं देता. साथ ही, जिस डेटासेट में बहुत ज़्यादा विविधता हैं वह ज़रूरी उदाहरणों की गारंटी नहीं देता.

उदाहरण के लिए, एक डेटासेट में 100 साल का डेटा हो सकता है, लेकिन सिर्फ़ जुलाई महीने का. जनवरी में बारिश का अनुमान लगाने के लिए इस डेटासेट का इस्तेमाल करने से, अनुमान अच्छे नहीं हो सकते. वहीं, हो सकता है कि किसी डेटासेट में सिर्फ़ कुछ साल शामिल हों, लेकिन उसमें हर महीने को शामिल किया गया हो. यह डेटासेट खराब अनुमान दे सकता है, क्योंकि इसमें बदलाव को समझने के लिए, ज़रूरत के मुताबिक साल नहीं हैं.

अपनी समझ को परखें

एमएल (मशीन लर्निंग) के लिए, डेटासेट के कौनसे एट्रिब्यूट इस्तेमाल करना सबसे सही होगा?
बड़ा साइज़ / ज़्यादा विविधता
डेटा के पैटर्न को समझने के लिए, मशीन लर्निंग सिस्टम को कई ऐसे उदाहरण देने ज़रूरी हैं जिनमें अलग-अलग तरह के इस्तेमाल के उदाहरण दिए गए हों. इस तरह के डेटासेट पर आधारित मॉडल से, नए डेटा के लिए अच्छे अनुमान लगाने की संभावना ज़्यादा होती है.
बड़ा साइज़ / कम विविधता
मशीन लर्निंग मॉडल उतने ही बेहतर हैं जितने की उन्हें ट्रेनिंग देने के लिए इस्तेमाल किए जाते हैं. एक मॉडल, ऐसे नए डेटा के लिए खराब अनुमान दिखाएगा जिसके लिए उसे कभी ट्रेनिंग नहीं दी गई.
छोटा साइज़ / ज़्यादा विविधता
ज़्यादातर मॉडल को छोटे डेटासेट में भरोसेमंद पैटर्न नहीं मिलते. बड़े डेटासेट से मिलने वाले सुझावों में वह भरोसा नहीं होगा जो अनुमान से मिलता है.
छोटा साइज़ / कम विविधता
अगर आपका डेटासेट छोटा है और उसमें बहुत ज़्यादा वैरिएशन नहीं हैं, तो हो सकता है कि आपको मशीन लर्निंग से कोई फ़ायदा न मिले.

डेटासेट की विशेषताएं, उसकी सुविधाओं की संख्या से भी जुड़ी हो सकती हैं. उदाहरण के लिए, मौसम के कुछ डेटासेट में सैटलाइट से ली गई तस्वीरों से लेकर क्लाउड कवरेज वैल्यू तक, सैकड़ों सुविधाएं हो सकती हैं. अन्य डेटासेट में सिर्फ़ तीन या चार सुविधाएँ हो सकती हैं, जैसे कि नमी, वायुमंडलीय दबाव, और तापमान. ज़्यादा सुविधाओं वाले डेटासेट से, मॉडल को ज़्यादा पैटर्न खोजने और बेहतर अनुमान लगाने में मदद मिल सकती है. हालांकि, ज़्यादा सुविधाओं वाले डेटासेट हमेशा ऐसे मॉडल नहीं बनाते जो बेहतर अनुमान लगाते हैं. ऐसा इसलिए होता है, क्योंकि कुछ सुविधाएं लेबल के साथ काम करने के लिए कोई संबंध नहीं होती.

मॉडल

सुपरवाइज़्ड लर्निंग में, मॉडल, संख्याओं का जटिल कलेक्शन होता है. यह इनपुट के खास पैटर्न से लेकर, किसी आउटपुट लेबल की वैल्यू तक, गणित के हिसाब से संबंध बताता है. मॉडल, ट्रेनिंग से इन पैटर्न के बारे में पता लगाता है.

ट्रेनिंग

निगरानी में रखे गए मॉडल को ट्रेनिंग देने से पहले, यह पक्का किया जाना चाहिए कि वह अनुमान लगा सके. किसी मॉडल को ट्रेनिंग देने के लिए, हम मॉडल को लेबल किए गए उदाहरणों के साथ एक डेटासेट देते हैं. इस मॉडल का मकसद, सुविधाओं से लेबल का अनुमान लगाने के लिए, सबसे अच्छा तरीका निकालना है. यह मॉडल, अनुमानित वैल्यू की तुलना लेबल की असल वैल्यू से करके सबसे अच्छा समाधान ढूंढता है. अनुमानित और असल वैल्यू के बीच के अंतर के आधार पर, जिसे लॉस के तौर पर परिभाषित किया गया है—यह मॉडल धीरे-धीरे अपने समाधान को अपडेट करता है. दूसरे शब्दों में कहें, तो मॉडल, सुविधाओं और लेबल के बीच गणितीय संबंध को समझता है, ताकि यह अनदेखे डेटा का बेहतर अनुमान लगा सके.

उदाहरण के लिए, अगर मॉडल ने बारिश के लिए 1.15 inches का अनुमान लगाया है, लेकिन असल वैल्यू .75 inches है, तो यह मॉडल इस अनुमान में बदलाव करता है, ताकि यह अनुमान .75 inches के करीब हो. जब मॉडल, डेटासेट में हर उदाहरण को देख लेता है—कुछ मामलों में, कई बार—तो यह एक ऐसा समाधान मिलता है जो हर उदाहरण के लिए, औसतन सबसे अच्छा अनुमान लगाता है.

मॉडल को ट्रेनिंग देने के बारे में नीचे बताया गया है:

  1. मॉडल एक लेबल वाला उदाहरण लेता है और अनुमान दिखाता है.

    अनुमान लगाते हुए मॉडल की इमेज.

    पहला डायग्राम. लेबल किए गए उदाहरण से अनुमान लगाता एमएल मॉडल.

     

  2. यह मॉडल, अनुमानित वैल्यू की तुलना असल वैल्यू से करता है और इसके समाधान को अपडेट करता है.

    किसी मॉडल की इमेज, जिसमें वह अपने अनुमान की तुलना असल वैल्यू से कर रहा है.

    दूसरा डायग्राम. एमएल मॉडल अपनी अनुमानित वैल्यू को अपडेट कर रहा है.

     

  3. मॉडल, डेटासेट में लेबल किए गए हर उदाहरण के लिए इस प्रोसेस को दोहराता है.

    ऐसी इमेज जिसमें मॉडल अपने अनुमान की प्रोसेस को बार-बार दोहराता है और असल वैल्यू की तुलना करता है.

    तीसरी इमेज. ट्रेनिंग डेटासेट में, लेबल किए गए हर उदाहरण के लिए अपने अनुमानों को अपडेट करता एमएल मॉडल.

     

इस तरह, मॉडल धीरे-धीरे सुविधाओं और लेबल के बीच सही संबंध को समझ लेता है. धीरे-धीरे होने वाली इस समझ की वजह से भी बड़े और अलग-अलग डेटासेट बेहतर मॉडल तैयार करते हैं. इस मॉडल ने वैल्यू की ज़्यादा रेंज के साथ ज़्यादा डेटा देखा है. साथ ही, इसने सुविधाओं और लेबल के बीच के संबंध को बेहतर तरीके से समझने में भी मदद की है.

ट्रेनिंग के दौरान, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर कॉन्फ़िगरेशन और उन सुविधाओं में मामूली बदलाव कर सकते हैं जिनका इस्तेमाल मॉडल अनुमान लगाने के लिए करता है. उदाहरण के लिए, कुछ सुविधाओं में दूसरों के मुकाबले ज़्यादा अनुमानित जानकारी होती है. इसलिए, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर यह चुन सकते हैं कि ट्रेनिंग के दौरान मॉडल किन सुविधाओं का इस्तेमाल करेगा. उदाहरण के लिए, मान लें कि मौसम के डेटासेट में time_of_day को एक सुविधा के तौर पर शामिल किया गया है. ऐसे मामले में, मशीन लर्निंग का इस्तेमाल करने वाला व्यक्ति, ट्रेनिंग के दौरान time_of_day को जोड़ या हटा सकता है. इससे पता चलेगा कि मॉडल, इसके बिना बेहतर अनुमान लगाता है या नहीं.

मूल्यांकन हो रहा है

हम एक ट्रेन किए गए मॉडल की जांच करते हैं, ताकि यह पता लगाया जा सके कि उसने कितना सीखा. मॉडल का आकलन करते समय, हम लेबल किए गए डेटासेट का इस्तेमाल करते हैं. हालांकि, हम मॉडल को सिर्फ़ डेटासेट की सुविधाएं देते हैं. इसके बाद, हम मॉडल के अनुमानों की तुलना लेबल की सही वैल्यू से करते हैं.

एक इमेज, जिसमें एक प्रशिक्षित मॉडल को असल वैल्यू से तुलना करने के लिए अनुमान लगाया गया है.

चौथी इमेज. एमएल मॉडल का आकलन करने के लिए, उसके अनुमानों की तुलना असल वैल्यू से करना.

 

मॉडल के अनुमान के आधार पर, मॉडल को असल दुनिया में लागू करने से पहले, हम ज़्यादा ट्रेनिंग और आकलन कर सकते हैं.

अपनी समझ को परखें

किसी मॉडल को अनुमान लगाने से पहले ट्रेनिंग देने की ज़रूरत क्यों होती है?
किसी मॉडल को ट्रेनिंग देने की ज़रूरत होती है, ताकि वह डेटासेट की सुविधाओं और लेबल के बीच गणित के हिसाब से संबंध समझ सके.
किसी मॉडल को ट्रेनिंग देने की ज़रूरत नहीं होती. मॉडल ज़्यादातर कंप्यूटर पर उपलब्ध होते हैं.
किसी मॉडल को ट्रेनिंग देने की ज़रूरत होती है, ताकि अनुमान लगाने के लिए डेटा की ज़रूरत न हो.

अनुमान

जब हम मॉडल का आकलन करने के नतीजों से संतुष्ट हो जाएं, तो हम बिना लेबल वाले उदाहरणों पर अनुमान लगाने के लिए, मॉडल का इस्तेमाल कर सकते हैं. इन अनुमानों को अनुमान कहा जाता है. मौसम की जानकारी देने वाले ऐप्लिकेशन के उदाहरण में, हम इस मॉडल को मौसम की मौजूदा स्थितियों, जैसे कि तापमान, वायुमंडल का दबाव, और नमी के बारे में जानकारी देंगे. साथ ही, यह बारिश की मात्रा का अनुमान लगाएगा.