सुपरवाइज़्ड लर्निंग के टास्क अच्छी तरह से तय किए गए हैं और इन्हें कई स्थितियों में लागू किया जा सकता है. जैसे- स्पैम की पहचान करना या बारिश या बर्फ़बारी का अनुमान लगाना.
निगरानी में रखे जाने वाले बेसिक लर्निंग के कॉन्सेप्ट
सुपरवाइज़्ड मशीन लर्निंग, इन मुख्य सिद्धांतों पर आधारित है:
- डेटा
- मॉडल
- ट्रेनिंग
- मूल्यांकन हो रहा है
- अनुमान
डेटा
एमएल की वजह से डेटा पर असर पड़ता है. डेटा, शब्दों और संख्याओं के रूप में टेबल में स्टोर किया जाता है या इमेज और ऑडियो फ़ाइलों में कैप्चर किए गए पिक्सल और वेवफ़ॉर्म की वैल्यू के रूप में मिलता है. हम मिलते-जुलते डेटा को डेटासेट में सेव करते हैं. उदाहरण के लिए, हमारे पास नीचे दी गई दिखने वाली चीज़ों का डेटासेट हो सकता है:
- बिल्लियों के चित्र
- घरों की कीमतें
- मौसम की जानकारी
डेटासेट में अलग-अलग उदाहरण होते हैं. इनमें सुविधाएं और एक लेबल शामिल होता है. आपके हिसाब से एक उदाहरण ऐसा हो सकता है, जिसे स्प्रेडशीट में एक लाइन में दिखाया गया हो. सुविधाएं ऐसी वैल्यू होती हैं जिनका इस्तेमाल, निगरानी में रखा गया मॉडल, लेबल का अनुमान लगाने के लिए करता है. "जवाब" या वह वैल्यू होती है जिसका लेबल हम मॉडल से अनुमान लगाना चाहते हैं. बारिश का अनुमान लगाने वाले मौसम के मॉडल में ये सुविधाएं शामिल हो सकती हैं: अक्षांश, देशांतर, तापमान, नमीलता, क्लाउड कवरेज, पवन की दिशा, और वायु की दिशा. लेबल, रेनफ़ॉल की रकम दिखाएगा.
जिन उदाहरणों में सुविधाएं और लेबल, दोनों शामिल होते हैं उन्हें लेबल किए गए उदाहरण कहा जाता है.
लेबल किए गए दो उदाहरण
वहीं दूसरी ओर, बिना लेबल वाले उदाहरणों में सुविधाएं होती हैं, लेकिन कोई लेबल नहीं होता. मॉडल बनाने के बाद, मॉडल सुविधाओं से लेबल का अनुमान लगाता है.
बिना लेबल वाले दो उदाहरण
डेटासेट की विशेषताएं
डेटासेट की विशेषताएं उसके साइज़ और विविधता से जुड़ी होती हैं. साइज़ से उदाहरणों की संख्या पता चलती है. विविधता से पता चलता है कि उन उदाहरणों में कौनसी रेंज शामिल है. अच्छे डेटासेट में बड़े और बहुत सारे अलग-अलग तरह के डेटासेट होते हैं.
कुछ डेटासेट बड़े और अलग-अलग तरह के होते हैं. हालांकि, कुछ डेटासेट बड़े होते हैं, लेकिन उनमें विविधता कम होती है. कुछ डेटासेट छोटे, लेकिन बहुत अलग-अलग होते हैं. दूसरे शब्दों में, एक बड़ा डेटासेट ज़रूरत के मुताबिक विविधता की गारंटी नहीं देता. साथ ही, जिस डेटासेट में बहुत ज़्यादा विविधता हैं वह ज़रूरी उदाहरणों की गारंटी नहीं देता.
उदाहरण के लिए, एक डेटासेट में 100 साल का डेटा हो सकता है, लेकिन सिर्फ़ जुलाई महीने का. जनवरी में बारिश का अनुमान लगाने के लिए इस डेटासेट का इस्तेमाल करने से, अनुमान अच्छे नहीं हो सकते. वहीं, हो सकता है कि किसी डेटासेट में सिर्फ़ कुछ साल शामिल हों, लेकिन उसमें हर महीने को शामिल किया गया हो. यह डेटासेट खराब अनुमान दे सकता है, क्योंकि इसमें बदलाव को समझने के लिए, ज़रूरत के मुताबिक साल नहीं हैं.
अपनी समझ को परखें
डेटासेट की विशेषताएं, उसकी सुविधाओं की संख्या से भी जुड़ी हो सकती हैं. उदाहरण के लिए, मौसम के कुछ डेटासेट में सैटलाइट से ली गई तस्वीरों से लेकर क्लाउड कवरेज वैल्यू तक, सैकड़ों सुविधाएं हो सकती हैं. अन्य डेटासेट में सिर्फ़ तीन या चार सुविधाएँ हो सकती हैं, जैसे कि नमी, वायुमंडलीय दबाव, और तापमान. ज़्यादा सुविधाओं वाले डेटासेट से, मॉडल को ज़्यादा पैटर्न खोजने और बेहतर अनुमान लगाने में मदद मिल सकती है. हालांकि, ज़्यादा सुविधाओं वाले डेटासेट हमेशा ऐसे मॉडल नहीं बनाते जो बेहतर अनुमान लगाते हैं. ऐसा इसलिए होता है, क्योंकि कुछ सुविधाएं लेबल के साथ काम करने के लिए कोई संबंध नहीं होती.
मॉडल
सुपरवाइज़्ड लर्निंग में, मॉडल, संख्याओं का जटिल कलेक्शन होता है. यह इनपुट के खास पैटर्न से लेकर, किसी आउटपुट लेबल की वैल्यू तक, गणित के हिसाब से संबंध बताता है. मॉडल, ट्रेनिंग से इन पैटर्न के बारे में पता लगाता है.
ट्रेनिंग
निगरानी में रखे गए मॉडल को ट्रेनिंग देने से पहले, यह पक्का किया जाना चाहिए कि वह अनुमान लगा सके. किसी मॉडल को ट्रेनिंग देने के लिए, हम मॉडल को लेबल किए गए उदाहरणों के साथ एक डेटासेट देते हैं. इस मॉडल का मकसद, सुविधाओं से लेबल का अनुमान लगाने के लिए, सबसे अच्छा तरीका निकालना है. यह मॉडल, अनुमानित वैल्यू की तुलना लेबल की असल वैल्यू से करके सबसे अच्छा समाधान ढूंढता है. अनुमानित और असल वैल्यू के बीच के अंतर के आधार पर, जिसे लॉस के तौर पर परिभाषित किया गया है—यह मॉडल धीरे-धीरे अपने समाधान को अपडेट करता है. दूसरे शब्दों में कहें, तो मॉडल, सुविधाओं और लेबल के बीच गणितीय संबंध को समझता है, ताकि यह अनदेखे डेटा का बेहतर अनुमान लगा सके.
उदाहरण के लिए, अगर मॉडल ने बारिश के लिए 1.15 inches
का अनुमान लगाया है, लेकिन असल वैल्यू .75 inches
है, तो यह मॉडल इस अनुमान में बदलाव करता है, ताकि यह अनुमान .75 inches
के करीब हो. जब मॉडल, डेटासेट में हर उदाहरण को देख लेता है—कुछ मामलों में, कई बार—तो यह एक ऐसा समाधान मिलता है जो हर उदाहरण के लिए, औसतन सबसे अच्छा अनुमान लगाता है.
मॉडल को ट्रेनिंग देने के बारे में नीचे बताया गया है:
मॉडल एक लेबल वाला उदाहरण लेता है और अनुमान दिखाता है.
पहला डायग्राम. लेबल किए गए उदाहरण से अनुमान लगाता एमएल मॉडल.
यह मॉडल, अनुमानित वैल्यू की तुलना असल वैल्यू से करता है और इसके समाधान को अपडेट करता है.
दूसरा डायग्राम. एमएल मॉडल अपनी अनुमानित वैल्यू को अपडेट कर रहा है.
मॉडल, डेटासेट में लेबल किए गए हर उदाहरण के लिए इस प्रोसेस को दोहराता है.
तीसरी इमेज. ट्रेनिंग डेटासेट में, लेबल किए गए हर उदाहरण के लिए अपने अनुमानों को अपडेट करता एमएल मॉडल.
इस तरह, मॉडल धीरे-धीरे सुविधाओं और लेबल के बीच सही संबंध को समझ लेता है. धीरे-धीरे होने वाली इस समझ की वजह से भी बड़े और अलग-अलग डेटासेट बेहतर मॉडल तैयार करते हैं. इस मॉडल ने वैल्यू की ज़्यादा रेंज के साथ ज़्यादा डेटा देखा है. साथ ही, इसने सुविधाओं और लेबल के बीच के संबंध को बेहतर तरीके से समझने में भी मदद की है.
ट्रेनिंग के दौरान, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर कॉन्फ़िगरेशन और उन सुविधाओं में मामूली बदलाव कर सकते हैं जिनका इस्तेमाल मॉडल अनुमान लगाने के लिए करता है. उदाहरण के लिए, कुछ सुविधाओं में दूसरों के मुकाबले ज़्यादा अनुमानित जानकारी होती है. इसलिए, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर यह चुन सकते हैं कि ट्रेनिंग के दौरान मॉडल किन सुविधाओं का इस्तेमाल करेगा. उदाहरण
के लिए, मान लें कि मौसम के डेटासेट में time_of_day
को एक सुविधा के तौर पर शामिल किया गया है. ऐसे मामले में, मशीन लर्निंग का इस्तेमाल करने वाला व्यक्ति, ट्रेनिंग के दौरान time_of_day
को जोड़ या हटा सकता है. इससे पता चलेगा कि मॉडल, इसके बिना बेहतर अनुमान लगाता है या नहीं.
मूल्यांकन हो रहा है
हम एक ट्रेन किए गए मॉडल की जांच करते हैं, ताकि यह पता लगाया जा सके कि उसने कितना सीखा. मॉडल का आकलन करते समय, हम लेबल किए गए डेटासेट का इस्तेमाल करते हैं. हालांकि, हम मॉडल को सिर्फ़ डेटासेट की सुविधाएं देते हैं. इसके बाद, हम मॉडल के अनुमानों की तुलना लेबल की सही वैल्यू से करते हैं.
चौथी इमेज. एमएल मॉडल का आकलन करने के लिए, उसके अनुमानों की तुलना असल वैल्यू से करना.
मॉडल के अनुमान के आधार पर, मॉडल को असल दुनिया में लागू करने से पहले, हम ज़्यादा ट्रेनिंग और आकलन कर सकते हैं.
अपनी समझ को परखें
अनुमान
जब हम मॉडल का आकलन करने के नतीजों से संतुष्ट हो जाएं, तो हम बिना लेबल वाले उदाहरणों पर अनुमान लगाने के लिए, मॉडल का इस्तेमाल कर सकते हैं. इन अनुमानों को अनुमान कहा जाता है. मौसम की जानकारी देने वाले ऐप्लिकेशन के उदाहरण में, हम इस मॉडल को मौसम की मौजूदा स्थितियों, जैसे कि तापमान, वायुमंडल का दबाव, और नमी के बारे में जानकारी देंगे. साथ ही, यह बारिश की मात्रा का अनुमान लगाएगा.