मशीन लर्निंग क्रैश कोर्स का नया और बेहतर वर्शन अगस्त 2024 में लॉन्च होगा. हमारे साथ बने रहें!
ओवरक्रॉसिंग कर रहे हैं?
वीडियो देखने या दस्तावेज़ पढ़ने से पहले, कृपया यह अभ्यास पूरा करें. इसमें कुछ सुविधाओं के बहुत ज़्यादा इस्तेमाल के बारे में बताया गया है.
टास्क 1: सभी क्रॉस-प्रॉडक्ट सुविधाओं के साथ, मॉडल को ऐसे ही चलाएं. क्या मॉडल के डेटा को सही तरीके से फ़िट करने में कोई हैरानी हुई?
क्या समस्या आ रही है?
टास्क 2: परफ़ॉर्मेंस को बेहतर बनाने के लिए कई क्रॉस-प्रॉडक्ट सुविधाओं को हटाकर देखें (हालांकि, ऐसा बहुत कम होता है). सुविधाओं को हटाने से परफ़ॉर्मेंस बेहतर क्यों होगी?
(जवाब, कसरत के ठीक नीचे दिखेंगे.)
टास्क 1 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.
हैरानी की बात है कि मॉडल के फ़ैसले की सीमा अजीब लगती है. खास तौर पर, ऊपर बाईं ओर एक इलाका है जो नीले रंग की ओर इशारा कर रहा है, हालांकि डेटा में उसके लिए कोई सहायता मौजूद नहीं है.
इनपुट से OUTPUT तक चलने वाली पांच लाइनों की मोटाई देखें.
ये लाइनें, पांच सुविधाओं का तुलनात्मक भार दिखाती हैं.
X1 और X2 से आने वाली लाइनें, सुविधा से आने वाली
लाइनों की तुलना में ज़्यादा मोटी हैं. इसलिए, सुविधा क्रॉस, सामान्य (बिना क्रॉस वाली) सुविधाओं की तुलना में मॉडल में बहुत कम योगदान दे रहे हैं.
टास्क 2 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.
सभी फ़ीचर क्रॉस को हटाने से ज़्यादा सही मॉडल मिलता है (ओवरफ़िटिंग का संकेत देने वाली घुमावदार सीमा नहीं दिखती है) और इससे टेस्ट में होने वाले नुकसान की जानकारी मिलती है.
1,000 बार दोहराने के बाद, सुविधा के क्रॉस के लेवल की तुलना में
टेस्ट के नतीजों की संख्या थोड़ी कम होनी चाहिए. हालांकि, डेटा सेट के हिसाब से
आपके नतीजे थोड़े अलग हो सकते हैं.
इस अभ्यास में डेटा असल में लीनियर डेटा और नॉइज़ शामिल है.
अगर हम किसी ऐसे मॉडल का इस्तेमाल करते हैं जो बहुत जटिल है, जैसे कि बहुत ज़्यादा क्रॉस वाला मॉडल, तो हम इसे ट्रेनिंग डेटा के गै़र-ज़रूरी मॉडल के मुताबिक बना देते हैं. इससे अक्सर, टेस्ट डेटा में मॉडल की परफ़ॉर्मेंस खराब होती है.