इस पेज का अनुवाद Cloud Translation API से किया गया है.

स्पार्सिटी के लिए रेगुलराइज़ेशन: L1 रेगुलराइज़ेशन

स्पैर्स वेक्टर में अक्सर कई डाइमेंशन होते हैं. फ़ीचर क्रॉस बनाने से, और ज़्यादा डाइमेंशन मिलते हैं. ऐसे हाई-डाइमेंशन वाले फ़ीचर वेक्टर को देखते हुए, मॉडल का साइज़ बड़ा हो सकता है और उसे बहुत ज़्यादा रैम की ज़रूरत हो सकती है.

एक हाई-डाइमेंशन स्पैर्स वेक्टर में, जहां संभव हो वहां वज़न को ठीक 0 तक छोड़ने को बढ़ावा देना अच्छा होगा. ठीक 0 का वज़न, मॉडल से संबंधित सुविधा को ज़रूरी रूप से हटा देता है. सुविधाओं को शून्य करने से रैम बचेगा और मॉडल में शोर कम हो सकता है.

उदाहरण के लिए, एक ऐसा हाउसिंग डेटा सेट मान लें जो सिर्फ़ कैलिफ़ोर्निया ही नहीं, बल्कि पूरी दुनिया को कवर करता हो. मिनट के लेवल पर ग्लोबल अक्षांश (हर डिग्री के लिए 60 मिनट) को बकेट में रखने से, स्पैर्स एन्कोडिंग में करीब 10,000 डाइमेंशन मिलते हैं. मिनट के लेवल पर ग्लोबल देशांतर से करीब 20,000 डाइमेंशन मिलते हैं. इन दो सुविधाओं वाले फ़ीचर क्रॉस से, करीब 2,00,000,000 डाइमेंशन मिलेंगे. उनमें से कई डाइमेंशन, सीमित तौर पर रहने वाले इलाकों (उदाहरण के लिए, महासागर के बीच) को दिखाते हैं. इस डेटा का इस्तेमाल बेहतर तरीके से सामान्य बनाने के लिए करना मुश्किल होगा. इन ग़ैर-ज़रूरी डाइमेंशन को सेव करने में, रैम से होने वाले खर्च को चुकाना बचका सकता है. इसलिए, बिना मतलब वाले डाइमेंशन के वेट को सिर्फ़ 0 तक कम करने के लिए बढ़ावा देना बेहतर होगा. इससे हमें अनुमान के समय, इन मॉडल कोऐफ़िशिएंट के स्टोरेज की कीमत को चुकाने से बचने में मदद मिलेगी.

हम इस आइडिया को, ट्रेनिंग के दौरान किए गए ऑप्टिमाइज़ेशन के समस्या में एन्कोड कर सकते हैं. इसके लिए, हम नियमित तौर पर इस्तेमाल किए जाने वाले सही शब्द को जोड़ते हैं.

क्या L₂ के रेगुलराइज़ेशन से यह टास्क पूरा होगा? माफ़ करें, ऐसा नहीं है. L₂ रेगुलराइज़ेशन से, वज़न को छोटा रखने में मदद मिलती है, लेकिन यह वैल्यू को 0.0 पर ज़बरदस्ती नहीं लाती.

दूसरा तरीका यह है कि आप रेगुलराइज़ेशन के लिए एक ऐसा शब्द बनाएं जिससे मॉडल में नॉन-ज़ीरो गुणांक वैल्यू की गिनती कम हो जाए. इस संख्या को बढ़ाना सिर्फ़ तब सही रहेगा, जब डेटा को फ़िट करने के लिए मॉडल की क्षमता में ज़रूरत के मुताबिक बढ़ोतरी होगी. माफ़ करें, गिनती पर आधारित यह तरीका दिलचस्प है, लेकिन इससे हमारी कन्वेक्स ऑप्टिमाइज़ेशन समस्या को बिना किसी उत्तल ऑप्टिमाइज़ेशन के समस्या में बदल दिया जाएगा. इस आइडिया को L₀ रेगुलराइज़ेशन के नाम से जाना जाता है. यह ऐसी चीज़ नहीं है जिसका इस्तेमाल हम असरदार तरीके से कर सकें.

हालांकि, रेगुलराइज़ेशन की एक ऐसी शर्त है जिसे L₁ रेगुलराइज़ेशन कहते हैं. यह L₀ का अनुमान होता है, लेकिन इसका फ़ायदा कन्वेक्स होने का होता है और इस तरह से कैलकुलेट करने में आसानी होती है. इसलिए, हम L₁ रेगुलराइज़ेशन का इस्तेमाल कर सकते हैं, ताकि हमारे मॉडल में कई बिना कोई जानकारी वाले गुणांक सिर्फ़ 0 हों. इससे, अनुमान के हिसाब से रैम की बचत हो सकेगी.

L₁ बनाम L₂ रेगुलराइज़ेशन.

L₂ और L₁ मोटाई को अलग-अलग तरीके से दंडित किया जाता है:

L₂ से वज़न² पर जुर्माना लगता है.
L₁ पेनल्टी |वज़न|.

इस वजह से, L₂ और L₁ के अलग-अलग डेरिवेटिव हैं:

L₂ का डेरिवेटिव 2 * वज़न होता है.
L₁ का डेरिवेटिव k होता है. यह एक कॉन्सटेंट होता है, जिसकी वैल्यू वज़न से अलग होती है.

L₂ के डेरिवेटिव को एक ऐसे बल के तौर पर देखा जा सकता है जो हर बार वज़न का x% हटा देता है. जैसा कि ज़ेनो को पता है कि भले ही आप अरबों बार x प्रतिशत भी हटा दें, लेकिन यह संख्या कभी शून्य तक नहीं पहुंचेगी. (ज़ेनो को फ़्लोटिंग-पॉइंट पर सटीक जानकारी देने की सीमाओं के बारे में ज़्यादा जानकारी नहीं थी, जो शायद सटीक तौर पर शून्य जनरेट कर सकती थी.) किसी भी दर पर, L₂ आम तौर पर वज़न को शून्य नहीं करता.

L₁ के डेरिवेटिव को एक ऐसे बल के तौर पर देखा जा सकता है जो वज़न में से कुछ स्थिरांक को हर बार घटाता है. हालांकि, ऐब्सलूट वैल्यू की वजह से L₁ में 0 पर असंतत बना होता है, जिससे 0 को पार करने पर मिलने वाले घटाव के नतीजे शून्य हो जाते हैं. उदाहरण के लिए, अगर घटाव करने पर मोटाई को +0.1 से -0.2 कर दिया जाएगा, तो L₁ वज़न को ठीक 0 पर सेट कर देगा. यूरेका, L₁ ने वज़न कम किया.

L₁ रेगुलराइज़ेशन—सभी वेट के पूरे वैल्यू को निलंबित करके, वाइड मॉडल के लिए काफ़ी असरदार साबित होता है.

ध्यान दें कि यह विवरण एक-आयामी मॉडल के लिए सही है.

नीचे दिए गए 'चलाएं' बटन () पर क्लिक करें. इससे आपको वज़न के नेटवर्क पर, L₁ और L₂ रेगुलराइज़ेशन के असर की तुलना करनी है.

कॉन्वेक्स ऑप्टिमाइज़ेशन	₁ रेगुलराइज़ेशन
₂ रेगुलराइज़ेशन	वन-हॉट एन्कोडिंग
वज़न

स्पार्सिटी के लिए रेगुलराइज़ेशन: L1 रेगुलराइज़ेशन

L1 बनाम L2 रेगुलराइज़ेशन.

L₁ बनाम L₂ रेगुलराइज़ेशन.