मशीन लर्निंग क्रैश कोर्स का नया और बेहतर वर्शन अगस्त 2024 में लॉन्च होगा. हमारे साथ बने रहें!

इस पेज का अनुवाद Cloud Translation API से किया गया है.

आसानी से रेगुलराइज़ेशन: प्लेग्राउंड एक्सरसाइज़ (ओवरक्रॉसिंग?)

ओवरक्रॉसिंग कर रहे हैं?

वीडियो देखने या दस्तावेज़ पढ़ने से पहले, कृपया यह अभ्यास पूरा करें. इसमें कुछ सुविधाओं के बहुत ज़्यादा इस्तेमाल के बारे में बताया गया है.

टास्क 1: सभी क्रॉस-प्रॉडक्ट सुविधाओं के साथ, मॉडल को ऐसे ही चलाएं. क्या मॉडल के डेटा को सही तरीके से फ़िट करने में कोई हैरानी हुई? क्या समस्या आ रही है?

टास्क 2: परफ़ॉर्मेंस को बेहतर बनाने के लिए कई क्रॉस-प्रॉडक्ट सुविधाओं को हटाकर देखें (हालांकि, ऐसा बहुत कम होता है). सुविधाओं को हटाने से परफ़ॉर्मेंस बेहतर क्यों होगी?

(जवाब, कसरत के ठीक नीचे दिखेंगे.)

टास्क 1 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.

हैरानी की बात है कि मॉडल के फ़ैसले की सीमा अजीब लगती है. खास तौर पर, ऊपर बाईं ओर एक इलाका है जो नीले रंग की ओर इशारा कर रहा है, हालांकि डेटा में उसके लिए कोई सहायता मौजूद नहीं है.

इनपुट से OUTPUT तक चलने वाली पांच लाइनों की मोटाई देखें. ये लाइनें, पांच सुविधाओं का तुलनात्मक भार दिखाती हैं. X₁ और X₂ से आने वाली लाइनें, सुविधा से आने वाली लाइनों की तुलना में ज़्यादा मोटी हैं. इसलिए, सुविधा क्रॉस, सामान्य (बिना क्रॉस वाली) सुविधाओं की तुलना में मॉडल में बहुत कम योगदान दे रहे हैं.

टास्क 2 के जवाब के लिए, प्लस आइकॉन पर क्लिक करें.

सभी फ़ीचर क्रॉस को हटाने से ज़्यादा सही मॉडल मिलता है (ओवरफ़िटिंग का संकेत देने वाली घुमावदार सीमा नहीं दिखती है) और इससे टेस्ट में होने वाले नुकसान की जानकारी मिलती है.

1,000 बार दोहराने के बाद, सुविधा के क्रॉस के लेवल की तुलना में टेस्ट के नतीजों की संख्या थोड़ी कम होनी चाहिए. हालांकि, डेटा सेट के हिसाब से आपके नतीजे थोड़े अलग हो सकते हैं.

इस अभ्यास में डेटा असल में लीनियर डेटा और नॉइज़ शामिल है. अगर हम किसी ऐसे मॉडल का इस्तेमाल करते हैं जो बहुत जटिल है, जैसे कि बहुत ज़्यादा क्रॉस वाला मॉडल, तो हम इसे ट्रेनिंग डेटा के गै़र-ज़रूरी मॉडल के मुताबिक बना देते हैं. इससे अक्सर, टेस्ट डेटा में मॉडल की परफ़ॉर्मेंस खराब होती है.