पिछली यूनिट में, नीचे दिया गया मॉडल दिखाया गया था. इस मॉडल ने टेस्ट सेट में मौजूद कई पेड़ों को गलत कैटगरी में रखा था:
पिछले मॉडल में कई जटिल आकार हैं. क्या आसान मॉडल, नए डेटा को बेहतर तरीके से मैनेज करेगा? मान लें कि आपने जटिल मॉडल को एक बहुत ही आसान मॉडल, यानी सीधी रेखा से बदल दिया है.
आसान मॉडल, नए डेटा पर जटिल मॉडल के मुकाबले बेहतर तरीके से सामान्यीकरण करता है. इसका मतलब है कि आसान मॉडल ने टेस्ट सेट पर, मुश्किल मॉडल के मुकाबले बेहतर अनुमान लगाए.
आसानी से इस्तेमाल होने वाले टूल, लंबे समय से मुश्किल टूल को पीछे छोड़ रहे हैं. असल में, आसानी से इस्तेमाल होने वाले डिवाइसों को प्राथमिकता देने की परंपरा, प्राचीन ग्रीस से चली आ रही है. कई सदियों बाद, चौदहवीं शताब्दी के एक फ़्रायर, विलियम ऑफ़ ऑकम ने ऑकम के रेज़र नाम के फ़िलॉज़ोफ़ी में, आसानी को प्राथमिकता दी. यह दर्शन, कई विज्ञानों के लिए एक अहम सिद्धांत बना हुआ है. इनमें मशीन लर्निंग भी शामिल है.
एक्सरसाइज़: देखें कि आपको क्या समझ आया
आपको भौतिकी का कोई समीकरण बनाना है. इनमें से कौनसा फ़ॉर्मूला, ऑकहम के रेज़र के सिद्धांत के मुताबिक है?
तीन वैरिएबल वाला फ़ॉर्मूला.
तीन वैरिएबल, बारह वैरिएबल की तुलना में ऑकहम के नियम के हिसाब से ज़्यादा सही हैं.
बारह वैरिएबल वाला फ़ॉर्मूला.
12 वैरिएबल का इस्तेमाल करना बहुत मुश्किल लगता है, है न?
फ़िज़िक्स के सबसे मशहूर दो फ़ॉर्मूले (F=ma और
E=mc2) में, हर फ़ॉर्मूले में सिर्फ़ तीन वैरिएबल होते हैं.
आपने मशीन लर्निंग का एक नया प्रोजेक्ट शुरू किया है और आपको अपनी पहली सुविधाएं चुननी हैं. आपको कितनी सुविधाएं चुननी चाहिए?
एक से तीन ऐसी सुविधाएं चुनें जिनमें अनुमान लगाने की बेहतर क्षमता हो.
डेटा इकट्ठा करने की अपनी पाइपलाइन को सिर्फ़ एक या दो सुविधाओं के साथ शुरू करना सबसे अच्छा होता है. इससे आपको यह पुष्टि करने में मदद मिलेगी कि एमएल मॉडल ठीक से काम कर रहा है या नहीं.
साथ ही, कुछ सुविधाओं से बेसलाइन बनाने पर, आपको ऐसा लगेगा कि आपका कारोबार आगे बढ़ रहा है!
चार से छह ऐसी सुविधाएं चुनें जिनसे आपको लगता है कि वे अनुमान लगाने में काफ़ी असरदार हैं.
हो सकता है कि आप आने वाले समय में इन सभी सुविधाओं का इस्तेमाल करें. हालांकि, कम सुविधाओं के साथ शुरू करना बेहतर होता है. आम तौर पर, कम सुविधाओं का मतलब है कि कम गड़बड़ियां होंगी.
ज़्यादा से ज़्यादा सुविधाएं चुनें, ताकि यह देखा जा सके कि किन सुविधाओं से, आपके बारे में सबसे सटीक अनुमान लगाया जा सकता है.
कम से शुरू करें. हर नई सुविधा, आपके ट्रेनिंग डेटासेट में एक नया डाइमेंशन जोड़ती है. डाइमेंशन बढ़ने पर, स्पेस का वॉल्यूम इतनी तेज़ी से बढ़ता है कि उपलब्ध ट्रेनिंग डेटा कम हो जाता है. आपका डेटा जितना कम होगा, मॉडल के लिए ज़रूरी फ़ीचर और लेबल के बीच के संबंध को समझना उतना ही मुश्किल होगा. इस घटना को "डाइमेंशनलिटी का अभिशाप" कहा जाता है.
रेगुलराइज़ेशन
मशीन लर्निंग मॉडल को एक साथ दो अलग-अलग लक्ष्यों को पूरा करना होता है:
डेटा को सही तरीके से फ़िट करें.
डेटा को जितना हो सके उतना आसान बनाएं.
मॉडल को आसान बनाए रखने का एक तरीका है, मुश्किल मॉडल पर जुर्माना लगाना. इसका मतलब है कि मॉडल को ट्रेनिंग के दौरान आसान बनाने के लिए मजबूर करना. जटिल मॉडल पर जुर्माना लगाना, रेगुलराइज़ेशन का एक तरीका है.
नुकसान और जटिलता
अब तक, इस कोर्स में यह सुझाव दिया गया है कि ट्रेनिंग के दौरान, सिर्फ़ नुकसान को कम करना ही एकमात्र लक्ष्य था. इसका मतलब है कि:
$$\text{minimize(loss)}$$
जैसा कि आपने देखा, सिर्फ़ लॉस को कम करने पर फ़ोकस करने वाले मॉडल, ओवरफ़िट होते हैं.
बेहतर ट्रेनिंग ऑप्टिमाइज़ेशन एल्गोरिदम, गड़बड़ी और जटिलता के कुछ कॉम्बिनेशन को कम करता है:
$$\text{minimize(loss + complexity)}$$
माफ़ करें, आम तौर पर डेटा का नुकसान और डेटा को सुरक्षित रखने की प्रोसेस की जटिलता का एक-दूसरे से उलटा संबंध होता है. जटिलता बढ़ने पर, नुकसान कम हो जाता है. जटिलता कम होने पर, नुकसान बढ़ता है.
आपको एक ऐसा बीच का रास्ता मिलना चाहिए जहां मॉडल, ट्रेनिंग डेटा और असल दुनिया के डेटा, दोनों के लिए अच्छी भविष्यवाणियां करता हो.
इसका मतलब है कि आपके मॉडल को, डेटा के नुकसान और जटिलता के बीच एक उचित समझौता करना चाहिए.
जटिलता क्या है?
आपने पहले ही, नुकसान की संख्या का हिसाब लगाने के कुछ अलग-अलग तरीके देखे हैं. आपके हिसाब से, जटिलता का आकलन कैसे किया जा सकता है? एक्सप्लोरेशन शुरू करने के लिए, यह तरीका अपनाएं:
एक्सरसाइज़: अपने अंतर्ज्ञान की जांच करना
अब तक, हमने यह साफ़ तौर पर नहीं बताया है कि जटिलता का मतलब क्या है. आपके हिसाब से, इनमें से कौनसा सुझाव, जटिलता की सही मेट्रिक हो सकता है?
जटिलता, मॉडल के वज़न का फ़ंक्शन है.
हां, यह कुछ मॉडल की जटिलता को मेज़र करने का एक तरीका है.
इस मेट्रिक को
L1 रेगुलराइज़ेशन कहा जाता है.
जटिलता, मॉडल के वेट के वर्ग के फ़ंक्शन के तौर पर काम करती है.
हां, इस तरीके से कुछ मॉडल की जटिलता को मेज़र किया जा सकता है. इस मेट्रिक को
L2 रेगुलराइज़ेशन कहा जाता है.
मॉडल में मौजूद सभी सुविधाओं के पूर्वाग्रहों की वजह से, मॉडल की जटिलता तय होती है.