ओवरफ़िटिंग: लॉस कर्व की व्याख्या करना

मशीन लर्निंग का इस्तेमाल करना तब ज़्यादा आसान होता, जब पहली बार मॉडल को ट्रेन करते समय, आपके सभी लॉस कर्व कुछ इस तरह दिखते:

इमेज 20. मशीन लर्निंग मॉडल को ट्रेन करते समय, आदर्श लॉस कर्व दिखाने वाला प्लॉट. लॉस कर्व, y-ऐक्सिस पर लॉस को प्लॉट करता है और x-ऐक्सिस पर ट्रेनिंग के चरणों की संख्या को दिखाता है. ट्रेनिंग के चरणों की संख्या बढ़ने पर, लॉस की दर ज़्यादा से शुरू होती है. इसके बाद, यह तेजी से कम होती जाती है और आखिर में, लॉस की दर कम से कम हो जाती है.
20वां डायग्राम. लॉस कर्व का सही उदाहरण.

माफ़ करें, लॉस कर्व को समझना अक्सर मुश्किल होता है. इस पेज पर दिए गए अभ्यासों को हल करने के लिए, लॉस कर्व के बारे में अपने अनुमान का इस्तेमाल करें.

पहला एक्सरसाइज़: ऑसीलेट करने वाला लॉस कर्व

इमेज 21. ऐसा लॉस कर्व (y-ऐक्सिस पर लॉस; x-ऐक्सिस पर ट्रेनिंग के चरण की संख्या) जिसमें लॉस कम नहीं होता.
            इसके बजाय, नुकसान में उतार-चढ़ाव होता रहता है.
21वां डायग्राम. ऑसीलेट करने वाला लॉस कर्व.
फ़िगर 21 में दिखाए गए लॉस कर्व को बेहतर बनाने के लिए, तीन चीज़ें क्या की जा सकती हैं.
गलत उदाहरणों का पता लगाने के लिए, अपने डेटा की तुलना डेटा स्कीमा से करें. इसके बाद, ट्रैनिंग सेट से गलत उदाहरण हटाएं.
हां, यह सभी मॉडल के लिए एक अच्छा तरीका है.
लर्निंग रेट कम करें.
हां, ट्रेनिंग से जुड़ी समस्या को डीबग करते समय, आम तौर पर लर्निंग रेट को कम करना एक अच्छा तरीका होता है.
ट्रेनिंग सेट को भरोसेमंद उदाहरणों की छोटी संख्या तक कम करें.
भले ही, यह तकनीक अजीब लगती है, लेकिन यह असल में एक अच्छा तरीका है. यह मानते हुए कि मॉडल, भरोसेमंद उदाहरणों के छोटे सेट पर आधारित है, तो धीरे-धीरे ज़्यादा उदाहरण जोड़े जा सकते हैं. इससे यह पता चल सकता है कि किन उदाहरणों की वजह से लॉस कर्व में उतार-चढ़ाव होता है.
ट्रेनिंग सेट में उदाहरणों की संख्या बढ़ाएं.
यह एक अच्छा आइडिया है, लेकिन इससे समस्या हल होने की संभावना बहुत कम है.
लर्निंग रेट बढ़ाएं.
आम तौर पर, जब किसी मॉडल के लर्निंग कर्व से कोई समस्या का पता चलता है, तो लर्निंग रेट बढ़ाने से बचें.

दूसरा एक्सरसाइज़. अचानक गिरावट वाला लॉस कर्व

इमेज 22. लॉस कर्व प्लॉट, जो ट्रेनिंग के कुछ चरणों तक लॉस को कम दिखाता है और फिर ट्रेनिंग के अगले चरणों में अचानक लॉस बढ़ जाता है.
22वां डायग्राम. नुकसान में तेज़ी से बढ़ोतरी.
यहां दिए गए दो स्टेटमेंट में से, कौनसे ऐसे हैं जिनसे यह पता चलता है कि फ़िगर 22 में दिखाए गए, अचानक बढ़े हुए नुकसान की संभावित वजहें क्या हैं.
इनपुट डेटा में एक या उससे ज़्यादा NaNs हैं. उदाहरण के लिए, शून्य से भाग देने पर मिलने वाली वैल्यू.
ऐसा होना आम बात है.
इनपुट डेटा में आउटलायर की संख्या ज़्यादा है.
कभी-कभी, बैच को सही तरीके से शफ़ल न करने की वजह से, किसी बैच में बहुत ज़्यादा आउटलायर हो सकते हैं.
लर्निंग रेट बहुत कम है.
बहुत कम लर्निंग रेट से ट्रेनिंग में लगने वाला समय बढ़ सकता है, लेकिन यह विचित्र लॉस कर्व की वजह नहीं है.
नियमित करने की दर बहुत ज़्यादा है.
ज़्यादा रेगुलराइज़ेशन की वजह से, मॉडल को एक साथ काम करने से रोका जा सकता है. हालांकि, इससे फ़िगर 22 में दिखाया गया अजीब लॉस कर्व नहीं बनेगा.

तीसरा अभ्यास. टेस्ट लॉस, ट्रेनिंग लॉस से अलग होना

इमेज 23. ट्रेनिंग लॉस कर्व एक साथ दिखता है, लेकिन ट्रेनिंग के कुछ चरणों के बाद, पुष्टि करने से जुड़ा लॉस बढ़ने लगता है.
23वीं इमेज. पुष्टि न होने की संख्या में तेज़ी से बढ़ोतरी.
ट्रेनिंग और टेस्ट सेट के लॉस कर्व के बीच इस अंतर की वजह को सबसे बेहतर तरीके से बताने वाला, इनमें से कोई एक स्टेटमेंट कौनसा है?
मॉडल, ट्रेनिंग सेट को ओवरफ़िट कर रहा है.
हां, ऐसा हो सकता है. समस्या को हल करने के लिए ये तरीके आज़माएं:
  • मॉडल को आसान बनाएं. इसके लिए, सुविधाओं की संख्या कम करें.
  • नियमित करने की दर बढ़ाएं.
  • पक्का करें कि ट्रेनिंग सेट और टेस्ट सेट, आंकड़ों के हिसाब से एक जैसे हों.
लर्निंग रेट बहुत ज़्यादा है.
अगर लर्निंग रेट बहुत ज़्यादा होता, तो ट्रेनिंग सेट के लिए लॉस कर्व का व्यवहार वैसा नहीं होता जैसा कि हुआ.

चौथा एक्सरसाइज़. लॉस कर्व रुक जाता है

इमेज 24. लॉस कर्व का प्लॉट, जिसमें दिख रहा है कि ट्रेनिंग के साथ लॉस कम होना शुरू हो गया है. हालांकि, इसके बाद बार-बार दिखने वाले पैटर्न दिख रहे हैं, जो रेक्टैंगल के आकार वाली वेव की तरह दिख रहे हैं.
24वां डायग्राम. कुछ चरणों के बाद, गड़बड़ी की वजह से डेटा का खो जाना.
इनमें से किस वाक्य से, फ़ोटो 24 में दिखाए गए अनियमित लॉस कर्व की सबसे सही जानकारी मिलती है?
ट्रेनिंग सेट में, उदाहरणों के बार-बार होने वाले क्रम शामिल होते हैं.
ऐसा हो सकता है. पक्का करें कि आपने उदाहरणों को ज़रूरत के मुताबिक क्रम में लगाया हो.
नियमित करने की दर बहुत ज़्यादा है.
ऐसा होने की संभावना कम है.
ट्रेनिंग सेट में बहुत ज़्यादा सुविधाएं हैं.
ऐसा होने की संभावना कम है.