ओवरफ़िटिंग: मॉडल की जटिलता

पिछली यूनिट में, नीचे दिया गया मॉडल दिखाया गया था. इस मॉडल ने टेस्ट सेट में मौजूद कई पेड़ों को गलत कैटगरी में रखा था:

इमेज 16. यह इमेज, 13वें चित्र जैसी ही है. यह एक जटिल आकार है, जिसकी वजह से कई पेड़ों को गलत कैटगरी में रखा जाता है. — **16वां डायग्राम.** पिछली यूनिट का गलत तरीके से काम करने वाला कॉम्प्लेक्स मॉडल.

पिछले मॉडल में कई जटिल आकार हैं. क्या आसान मॉडल, नए डेटा को बेहतर तरीके से मैनेज करेगा? मान लें कि आपने जटिल मॉडल को एक बहुत ही आसान मॉडल, यानी सीधी रेखा से बदल दिया है.

इमेज 17. यह एक स्ट्रेट लाइन मॉडल है, जो बीमार पेड़ों को स्वस्थ पेड़ों से अलग करने में बहुत अच्छा काम करता है. — **17वीं इमेज.** यह एक बहुत ही आसान मॉडल है.

आसान मॉडल, नए डेटा पर जटिल मॉडल के मुकाबले बेहतर तरीके से सामान्यीकरण करता है. इसका मतलब है कि आसान मॉडल ने टेस्ट सेट पर, मुश्किल मॉडल के मुकाबले बेहतर अनुमान लगाए.

आसानी से इस्तेमाल होने वाले टूल, लंबे समय से मुश्किल टूल को पीछे छोड़ रहे हैं. असल में, आसानी से इस्तेमाल होने वाले डिवाइसों को प्राथमिकता देने की परंपरा, प्राचीन ग्रीस से चली आ रही है. कई सदियों बाद, चौदहवीं शताब्दी के एक फ़्रायर, विलियम ऑफ़ ऑकम ने ऑकम के रेज़र नाम के फ़िलॉज़ोफ़ी में, आसानी को प्राथमिकता दी. यह दर्शन, कई विज्ञानों के लिए एक अहम सिद्धांत बना हुआ है. इनमें मशीन लर्निंग भी शामिल है.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

आपको भौतिकी का कोई समीकरण बनाना है. इनमें से कौनसा फ़ॉर्मूला, ऑकहम के रेज़र के सिद्धांत के मुताबिक है?

तीन वैरिएबल वाला फ़ॉर्मूला.

तीन वैरिएबल, बारह वैरिएबल की तुलना में ऑकहम के नियम के हिसाब से ज़्यादा सही हैं.

बारह वैरिएबल वाला फ़ॉर्मूला.

12 वैरिएबल का इस्तेमाल करना बहुत मुश्किल लगता है, है न? फ़िज़िक्स के सबसे मशहूर दो फ़ॉर्मूले (F=ma और E=mc²) में, हर फ़ॉर्मूले में सिर्फ़ तीन वैरिएबल होते हैं.

आपने मशीन लर्निंग का एक नया प्रोजेक्ट शुरू किया है और आपको अपनी पहली सुविधाएं चुननी हैं. आपको कितनी सुविधाएं चुननी चाहिए?

एक से तीन ऐसी सुविधाएं चुनें जिनमें अनुमान लगाने की बेहतर क्षमता हो.

डेटा इकट्ठा करने की अपनी पाइपलाइन को सिर्फ़ एक या दो सुविधाओं के साथ शुरू करना सबसे अच्छा होता है. इससे आपको यह पुष्टि करने में मदद मिलेगी कि एमएल मॉडल ठीक से काम कर रहा है या नहीं. साथ ही, कुछ सुविधाओं से बेसलाइन बनाने पर, आपको ऐसा लगेगा कि आपका कारोबार आगे बढ़ रहा है!

चार से छह ऐसी सुविधाएं चुनें जिनसे आपको लगता है कि वे अनुमान लगाने में काफ़ी असरदार हैं.

हो सकता है कि आप आने वाले समय में इन सभी सुविधाओं का इस्तेमाल करें. हालांकि, कम सुविधाओं के साथ शुरू करना बेहतर होता है. आम तौर पर, कम सुविधाओं का मतलब है कि कम गड़बड़ियां होंगी.

ज़्यादा से ज़्यादा सुविधाएं चुनें, ताकि यह देखा जा सके कि किन सुविधाओं से, आपके बारे में सबसे सटीक अनुमान लगाया जा सकता है.

कम से शुरू करें. हर नई सुविधा, आपके ट्रेनिंग डेटासेट में एक नया डाइमेंशन जोड़ती है. डाइमेंशन बढ़ने पर, स्पेस का वॉल्यूम इतनी तेज़ी से बढ़ता है कि उपलब्ध ट्रेनिंग डेटा कम हो जाता है. आपका डेटा जितना कम होगा, मॉडल के लिए ज़रूरी फ़ीचर और लेबल के बीच के संबंध को समझना उतना ही मुश्किल होगा. इस घटना को "डाइमेंशनलिटी का अभिशाप" कहा जाता है.

रेगुलराइज़ेशन

मशीन लर्निंग मॉडल को एक साथ दो अलग-अलग लक्ष्यों को पूरा करना होता है:

डेटा को सही तरीके से फ़िट करें.
डेटा को जितना हो सके उतना आसान बनाएं.

मॉडल को आसान बनाए रखने का एक तरीका है, मुश्किल मॉडल पर जुर्माना लगाना. इसका मतलब है कि मॉडल को ट्रेनिंग के दौरान आसान बनाने के लिए मजबूर करना. जटिल मॉडल पर जुर्माना लगाना, रेगुलराइज़ेशन का एक तरीका है.

रेगुलराइज़ेशन की तुलना: मान लें कि किसी लेक्चर हॉल में हर छात्र के पास एक छोटा बज़र था, जिससे ऐसी आवाज़ निकलती थी जिससे प्रोफ़ेसर परेशान हो जाते थे. जब प्रोफ़ेसर का लेक्चर बहुत मुश्किल हो जाता था, तब छात्र-छात्राएं बटन दबा देते थे. परेशान होकर, प्रोफ़ेसर को लेक्चर को आसान बनाना पड़ता. प्रोफ़ेसर शिकायत करते थे, "जब मैं आसानी से समझाऊं, तो सटीक तरीके से नहीं समझा पाता." छात्र-छात्राएं जवाब में कहेंगे, "मेरा मकसद इसे इतना आसान तरीके से बताना है कि मैं इसे समझ जाऊं." धीरे-धीरे, बज़र की मदद से प्रोफ़ेसर को आसान लेक्चर देने की ट्रेनिंग दी जाएगी. भले ही, वह लेक्चर ज़रूरत के मुताबिक सटीक न हो.

नुकसान और जटिलता

अब तक, इस कोर्स में यह सुझाव दिया गया है कि ट्रेनिंग के दौरान, सिर्फ़ नुकसान को कम करना ही एकमात्र लक्ष्य था. इसका मतलब है कि:

$$\text{minimize(loss)}$$

जैसा कि आपने देखा, सिर्फ़ लॉस को कम करने पर फ़ोकस करने वाले मॉडल, ओवरफ़िट होते हैं. बेहतर ट्रेनिंग ऑप्टिमाइज़ेशन एल्गोरिदम, गड़बड़ी और जटिलता के कुछ कॉम्बिनेशन को कम करता है:

$$\text{minimize(loss + complexity)}$$

माफ़ करें, आम तौर पर डेटा का नुकसान और डेटा को सुरक्षित रखने की प्रोसेस की जटिलता का एक-दूसरे से उलटा संबंध होता है. जटिलता बढ़ने पर, नुकसान कम हो जाता है. जटिलता कम होने पर, नुकसान बढ़ता है. आपको एक ऐसा बीच का रास्ता मिलना चाहिए जहां मॉडल, ट्रेनिंग डेटा और असल दुनिया के डेटा, दोनों के लिए अच्छी भविष्यवाणियां करता हो. इसका मतलब है कि आपके मॉडल को, डेटा के नुकसान और जटिलता के बीच एक उचित समझौता करना चाहिए.

जटिलता क्या है?

आपने पहले ही, नुकसान की संख्या का हिसाब लगाने के कुछ अलग-अलग तरीके देखे हैं. आपके हिसाब से, जटिलता का आकलन कैसे किया जा सकता है? एक्सप्लोरेशन शुरू करने के लिए, यह तरीका अपनाएं:

एक्सरसाइज़: अपने अंतर्ज्ञान की जांच करना

अब तक, हमने यह साफ़ तौर पर नहीं बताया है कि जटिलता का मतलब क्या है. आपके हिसाब से, इनमें से कौनसा सुझाव, जटिलता की सही मेट्रिक हो सकता है?

जटिलता, मॉडल के वज़न का फ़ंक्शन है.

हां, यह कुछ मॉडल की जटिलता को मेज़र करने का एक तरीका है. इस मेट्रिक को L₁ रेगुलराइज़ेशन कहा जाता है.

जटिलता, मॉडल के वेट के वर्ग के फ़ंक्शन के तौर पर काम करती है.

हां, इस तरीके से कुछ मॉडल की जटिलता को मेज़र किया जा सकता है. इस मेट्रिक को L₂ रेगुलराइज़ेशन कहा जाता है.

मॉडल में मौजूद सभी सुविधाओं के पूर्वाग्रहों की वजह से, मॉडल की जटिलता तय होती है.

बायस से कॉम्प्लेक्सिटी का पता नहीं चलता.

पीछे जाएं

ओवरफ़िटिंग (10 मिनट)

आगे बढ़ें

L2 रेगुलराइज़ेशन (10 मिनट)