पिछली यूनिट में, नीचे दिया गया मॉडल दिखाया गया था. इस मॉडल ने टेस्ट सेट में मौजूद कई पेड़ों को गलत कैटगरी में रखा था:
पिछले मॉडल में कई जटिल आकार हैं. क्या आसान मॉडल, नए डेटा को बेहतर तरीके से मैनेज करेगा? मान लें कि आपने जटिल मॉडल को एक बहुत ही आसान मॉडल, यानी सीधी रेखा से बदल दिया है.
आसान मॉडल, नए डेटा पर जटिल मॉडल के मुकाबले बेहतर तरीके से सामान्यीकरण करता है. इसका मतलब है कि आसान मॉडल ने टेस्ट सेट पर, मुश्किल मॉडल के मुकाबले बेहतर अनुमान लगाए.
आसानी से इस्तेमाल होने वाले टूल, लंबे समय से मुश्किल टूल को पीछे छोड़ रहे हैं. असल में, आसानी से इस्तेमाल होने वाले डिवाइसों को प्राथमिकता देने की परंपरा, प्राचीन ग्रीस से चली आ रही है. कई सदियों बाद, चौदहवीं शताब्दी के एक फ़्रायर, विलियम ऑफ़ ऑकम ने ऑकम के रेज़र नाम के फ़िलॉज़ोफ़ी में, आसानी को प्राथमिकता दी. यह दर्शन, कई विज्ञानों के लिए एक अहम सिद्धांत बना हुआ है. इनमें मशीन लर्निंग भी शामिल है.
एक्सरसाइज़: देखें कि आपको क्या समझ आया
आपको भौतिकी का कोई समीकरण बनाना है. इनमें से कौनसा फ़ॉर्मूला, ऑकहम के रेज़र के सिद्धांत के मुताबिक है?
तीन वैरिएबल वाला फ़ॉर्मूला.
तीन वैरिएबल, बारह वैरिएबल की तुलना में ऑकहम के नियम के हिसाब से ज़्यादा सही हैं.
बारह वैरिएबल वाला फ़ॉर्मूला.
12 वैरिएबल का इस्तेमाल करना बहुत मुश्किल लगता है, है न?
फ़िज़िक्स के सबसे मशहूर दो फ़ॉर्मूले (F=ma और
E=mc2) में, हर फ़ॉर्मूले में सिर्फ़ तीन वैरिएबल होते हैं.
आपने मशीन लर्निंग का एक नया प्रोजेक्ट शुरू किया है और आपको अपनी पहली सुविधाएं चुननी हैं. आपको कितनी सुविधाएं चुननी चाहिए?
एक से तीन ऐसी सुविधाएं चुनें जिनमें अनुमान लगाने की बेहतर क्षमता हो.
डेटा इकट्ठा करने की अपनी पाइपलाइन को सिर्फ़ एक या दो सुविधाओं के साथ शुरू करना सबसे अच्छा होता है. इससे आपको यह पुष्टि करने में मदद मिलेगी कि एमएल मॉडल ठीक से काम कर रहा है या नहीं.
साथ ही, कुछ सुविधाओं से बेसलाइन बनाने पर, आपको ऐसा लगेगा कि आपका कारोबार आगे बढ़ रहा है!
चार से छह ऐसी सुविधाएं चुनें जिनसे आपको लगता है कि वे अनुमान लगाने में काफ़ी असरदार हैं.
हो सकता है कि आप आने वाले समय में इन सभी सुविधाओं का इस्तेमाल करें. हालांकि, कम सुविधाओं के साथ शुरू करना बेहतर होता है. आम तौर पर, कम सुविधाओं का मतलब है कि कम गड़बड़ियां होंगी.
ज़्यादा से ज़्यादा सुविधाएं चुनें, ताकि यह देखा जा सके कि किन सुविधाओं से, आपके बारे में सबसे सटीक अनुमान लगाया जा सकता है.
कम से शुरू करें. हर नई सुविधा, आपके ट्रेनिंग डेटासेट में एक नया डाइमेंशन जोड़ती है. डाइमेंशन बढ़ने पर, स्पेस का वॉल्यूम इतनी तेज़ी से बढ़ता है कि उपलब्ध ट्रेनिंग डेटा कम हो जाता है. आपका डेटा जितना कम होगा, मॉडल के लिए ज़रूरी फ़ीचर और लेबल के बीच के संबंध को समझना उतना ही मुश्किल होगा. इस घटना को "डाइमेंशनलिटी का अभिशाप" कहा जाता है.
रेगुलराइज़ेशन
मशीन लर्निंग मॉडल को एक साथ दो अलग-अलग लक्ष्यों को पूरा करना होता है:
डेटा को सही तरीके से फ़िट करें.
डेटा को जितना हो सके उतना आसान बनाएं.
मॉडल को आसान बनाए रखने का एक तरीका है, मुश्किल मॉडल पर जुर्माना लगाना. इसका मतलब है कि मॉडल को ट्रेनिंग के दौरान आसान बनाने के लिए मजबूर करना. जटिल मॉडल पर जुर्माना लगाना, रेगुलराइज़ेशन का एक तरीका है.
नुकसान और जटिलता
अब तक, इस कोर्स में यह सुझाव दिया गया है कि ट्रेनिंग के दौरान, सिर्फ़ नुकसान को कम करना ही एकमात्र लक्ष्य था. इसका मतलब है कि:
$$\text{minimize(loss)}$$
जैसा कि आपने देखा, सिर्फ़ लॉस को कम करने पर फ़ोकस करने वाले मॉडल, ओवरफ़िट होते हैं.
बेहतर ट्रेनिंग ऑप्टिमाइज़ेशन एल्गोरिदम, गड़बड़ी और जटिलता के कुछ कॉम्बिनेशन को कम करता है:
$$\text{minimize(loss + complexity)}$$
माफ़ करें, आम तौर पर डेटा का नुकसान और डेटा को सुरक्षित रखने की प्रोसेस की जटिलता का एक-दूसरे से उलटा संबंध होता है. जटिलता बढ़ने पर, नुकसान कम हो जाता है. जटिलता कम होने पर, नुकसान बढ़ता है.
आपको एक ऐसा बीच का रास्ता मिलना चाहिए जहां मॉडल, ट्रेनिंग डेटा और असल दुनिया के डेटा, दोनों के लिए अच्छी भविष्यवाणियां करता हो.
इसका मतलब है कि आपके मॉडल को, डेटा के नुकसान और जटिलता के बीच एक उचित समझौता करना चाहिए.
जटिलता क्या है?
आपने पहले ही, नुकसान की संख्या का हिसाब लगाने के कुछ अलग-अलग तरीके देखे हैं. आपके हिसाब से, जटिलता का आकलन कैसे किया जा सकता है? एक्सप्लोरेशन शुरू करने के लिए, यह तरीका अपनाएं:
एक्सरसाइज़: अपने अंतर्ज्ञान की जांच करना
अब तक, हमने यह साफ़ तौर पर नहीं बताया है कि जटिलता का मतलब क्या है. आपके हिसाब से, इनमें से कौनसा सुझाव, जटिलता की सही मेट्रिक हो सकता है?
जटिलता, मॉडल के वज़न का फ़ंक्शन है.
हां, यह कुछ मॉडल की जटिलता को मेज़र करने का एक तरीका है.
इस मेट्रिक को
L1 रेगुलराइज़ेशन कहा जाता है.
जटिलता, मॉडल के वेट के वर्ग के फ़ंक्शन के तौर पर काम करती है.
हां, इस तरीके से कुछ मॉडल की जटिलता को मेज़र किया जा सकता है. इस मेट्रिक को
L2 रेगुलराइज़ेशन कहा जाता है.
मॉडल में मौजूद सभी सुविधाओं के पूर्वाग्रहों की वजह से, मॉडल की जटिलता तय होती है.
[null,null,["आखिरी बार 2024-11-14 (UTC) को अपडेट किया गया."],[[["Simpler models often generalize better to new data than complex models, even if they perform slightly worse on training data."],["Occam's Razor favors simpler explanations and models, prioritizing them over more complex ones."],["Regularization techniques help prevent overfitting by penalizing model complexity during training."],["Model training aims to minimize both loss (errors on training data) and complexity for optimal performance on new data."],["Model complexity can be quantified using functions of model weights, like L1 and L2 regularization."]]],[]]