लॉजिस्टिक रिग्रेशन मॉडल को उसी प्रोसेस का इस्तेमाल करके ट्रेनिंग दी जाती है जो लीनियर रिग्रेशन मॉडल, दो मुख्य अंतरों के साथ:
- लॉजिस्टिक रिग्रेशन मॉडल का इस्तेमाल नुकसान को लॉग करें को लॉस फ़ंक्शन के तौर पर की जगह स्क्वेयर लॉस होगा.
- रेगुलराइज़ेशन लागू किया जा रहा है को सुरक्षित रखने के लिए, ओवरफ़िटिंग.
इन सेक्शन में, इन दो बातों के बारे में विस्तार से बताया गया है.
लॉग लॉस
लीनियर रिग्रेशन मॉड्यूल में, आपने स्क्वेयर लॉस का इस्तेमाल किया (इसे भी कहा जाता है L2 नुकसान) लॉस फ़ंक्शन. वर्गाकार हानि, रेखीय फलन के लिए अच्छी तरह से काम करती है वह मॉडल जिसमें आउटपुट वैल्यू में बदलाव की दर स्थिर हो. उदाहरण के लिए, दिया गया रैखिक मॉडल $y' = b + 3x_1$, हर बार इनपुट बढ़ाने पर मान $x_1$ को 1 से बढ़ाने पर, आउटपुट वैल्यू $y'$ में 3 से बढ़ोतरी होती है.
हालांकि, लॉजिस्टिक रिग्रेशन मॉडल के बदलाव की दर एक जैसी नहीं होती. प्रॉबबिलिटी का हिसाब लगाना पेज पर, सिगमॉइड कर्व एस के आकार का है सिखाने में मदद मिलती है. लॉग-ऑड ($z$) की वैल्यू 0 के करीब होने पर, छोटी संख्या $z$ में बढ़ोतरी होने से $y$ में काफ़ी ज़्यादा बदलाव होते हैं, जबकि $z$ बड़ा हो सकता है पॉज़िटिव या नेगेटिव नंबर. नीचे दी गई टेबल में, सिगमॉइड फ़ंक्शन को 5 से 10 तक की इनपुट वैल्यू और उनसे जुड़ी सटीक जानकारी का आउटपुट नतीजों में अंतर बताना ज़रूरी है.
इनपुट | लॉजिस्टिक आउटपुट | सटीक होने के लिए ज़रूरी अंक |
---|---|---|
5 | 0.993 | 3 |
6 | 0.997 | 3 |
7 | 0.999 | 3 |
8 | 0.9,997 | 4 |
9 | 0.9,999 | 4 |
10 | 0.99,998 | 5 |
यदि आपने सिगमॉइड फ़ंक्शन के लिए गड़बड़ियों की गणना करने के लिए वर्ग हानि का उपयोग किया, तो
आउटपुट 0
और 1
के करीब आ गया है. ऐसे में, आपको ज़्यादा स्टोरेज की ज़रूरत होगी
इन वैल्यू को ट्रैक करने के लिए ज़रूरी सटीक जानकारी को सुरक्षित रखता है.
इसके बजाय, लॉजिस्टिक रिग्रेशन के लिए लॉस फ़ंक्शन यह होता है लॉग लॉस. कॉन्टेंट बनाने लॉग लॉस इक्वेशन, बदलाव के परिमाण का लॉगारिद्म कैलकुलेट करता है. इसके बजाय, का अनुमान लगाना होता है. लॉग लॉस का हिसाब इस तरह लगाया जाता है अनुसरण करता है:
\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)
कहां:
- \((x,y)\in D\) वह डेटासेट है जिसमें लेबल किए गए कई उदाहरण शामिल हैं. ये उदाहरण \((x,y)\) पेयर.
- \(y\) लेबल किए गए उदाहरण में लेबल है. यह लॉजिस्टिक रिग्रेशन है, इसलिए \(y\) की हर वैल्यू 0 या 1 होनी चाहिए.
- सेट दिया गया है, \(y'\) आपके मॉडल का अनुमान (0 और 1 के बीच के बीच) है सुविधाओं की संख्या \(x\)में मौजूद है.
लॉजिस्टिक रिग्रेशन में रेगुलराइज़ेशन
रेगुलराइज़ेशन, एक ऐसी प्रोसेस है जिसमें ट्रेनिंग के दौरान, मॉडल को मुश्किल परिस्थितियों में रखना, लॉजिस्टिक का इस्तेमाल करना बेहद ज़रूरी है रिग्रेशन मॉडलिंग (रिग्रेशन मॉडलिंग) का इस्तेमाल करें. रेगुलराइज़ेशन के बिना, लॉजिस्टिक का काम करना मुश्किल हो जाता है अगर मॉडल के पास इस्तेमाल किया जा सकता है. इस वजह से, ज़्यादातर लॉजिस्टिक रिग्रेशन मॉडल सिर्फ़ एक तरीके का इस्तेमाल करते हैं का पालन करने के लिए प्रोत्साहित किया जा सकता है:
- L2 रेगुलराइज़ेशन
- सबसे पहले रोकना: नुकसान होने की स्थिति में, ट्रेनिंग को रोकने के लिए ट्रेनिंग के चरणों की संख्या को सीमित करना अब भी घट रहा है.