लीनियर रिग्रेशन: ग्रेडिएंट डिसेंट

ग्रेडिएंट डिसेंट गणित की ऐसी तकनीक जो बार-बार उन वज़न और पूर्वाग्रह का पता लगाती है जिनसे सबसे कम नुकसान वाला मॉडल. ग्रेडिएंट ढलान को सबसे सही वज़न और पूर्वाग्रह मिलता है नीचे दी गई प्रक्रिया को दोहराकर कई उपयोगकर्ताओं को अपने कारोबार की जानकारी दी जा सकती है.

यह मॉडल शून्य के करीब, किसी भी क्रम में लगाए गए वज़न और पक्षपात के साथ ट्रेनिंग शुरू करता है. और फिर इन चरणों को दोहराता है:

  1. मौजूदा वज़न और पूर्वाग्रह की मदद से नुकसान की गणना करें.

  2. नुकसान को कम करने वाले वज़न और पक्षपात को मूव करने की दिशा तय करें.

  3. वज़न और पूर्वाग्रह के मानों को कम करने वाली दिशा में थोड़ी दूरी पर ले जाएं नुकसान.

  4. पहले चरण पर वापस जाएं और इस प्रोसेस को तब तक दोहराएं, जब तक मॉडल उन्हें और कम कर सकता है.

नीचे दिया गया डायग्राम, बार-बार उस चरण के बारे में बताता है जिसमें ग्रेडिएंट डिसेंट का इस्तेमाल करके, उन वज़न और पूर्वाग्रह की जानकारी है जो सबसे कम नुकसान वाले मॉडल को तैयार करते हैं.

इमेज 12. ग्रेडिएंट डिसेंट प्रोसेस की इमेज.

12वीं इमेज. ग्रेडिएंट ढलान एक दोहराने वाली प्रक्रिया है, जिसमें वज़न का पता लगाया जाता है और पूर्वाग्रह की वजह से सबसे कम नुकसान वाला मॉडल तैयार होता है.

ग्रेडिएंट ढलान के पीछे के गणित के बारे में अधिक जानने के लिए प्लस आइकन पर क्लिक करें.

ठोस स्तर पर, हम ग्रेडिएंट ढलान के चरणों से गुज़र सकते हैं एक छोटे डेटासेट का इस्तेमाल करके, कार के पाउंड के हिसाब से सात उदाहरण दिए गए हैं और इसकी मील प्रति गैलन रेटिंग:

1,000 सेकंड में पाउंड (सुविधा) माइल प्रति गैलन (लेबल)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24
  1. यह मॉडल, वज़न और पक्षपात को शून्य पर सेट करके ट्रेनिंग शुरू करता है:
  2. $$ \small{Weight:\ 0} $$ $$ \small{Bias:\ 0} $$ $$ \small{y = 0 + 0(x_1)} $$
  3. मौजूदा मॉडल पैरामीटर की मदद से, एमएसई में होने वाले नुकसान का हिसाब लगाएं:
  4. $$ \small{Loss = \frac{(18-0)^2 + (15-0)^2 + (18-0)^2 + (16-0)^2 + (15-0)^2 + (14-0)^2 + (24-0)^2}{7}} $$ $$ \small{Loss= 303.71} $$
  5. हर वज़न पर, घटाव के फलन में स्पर्शरेखा (टैनजंट) के प्रवणता की गणना करें और पूर्वाग्रह:
  6. $$ \small{Weight\ slope: -119.7} $$ $$ \small{Bias\ slope: -34.3} $$

    ढलान की गणना करने के बारे में जानने के लिए प्लस आइकन पर क्लिक करें.

    वज़न की स्पर्शज्याओं (टैनजंट) वाली रेखाओं का स्लोप निकालने के लिए और पूर्वाग्रह, हम हानि फ़ंक्शन के अवकलज को के आधार पर भेदभाव कर सकते हैं, और फिर समीकरण.

    अनुमान लगाने के लिए, हम समीकरण को इस तरह लिखेंगे:
    $ f_{w,b}(x) = (w*x)+b $.

    हम वास्तविक मान को इस रूप में लिखेंगे: $ y $.

    हम एमएसई का हिसाब इसका इस्तेमाल करके लगाएंगे:
    $ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $
    जहां $i$, $ith$ ट्रेनिंग का उदाहरण दिखाता है और $M$ दिखाता है डालें.

    वेट का डेरिवेटिव

    वज़न के संबंध में हानि फ़ंक्शन का अवकलज इस तरह लिखा जाता है:
    $ \frac{\pसेल्स }{\pसेल्स w} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

    और इस पर आकलन करता है:
    $ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2x_{(i)} $

    सबसे पहले हम हर अनुमानित वैल्यू को जोड़कर, असल वैल्यू को घटा देते हैं और फिर इसे सुविधा की वैल्यू के दो गुना से गुणा करें. फिर हम योग को उदाहरणों की संख्या से विभाजित करते हैं. नतीजा, मान की टैंजेंट (tan) लाइन का स्लोप है वज़न का प्रतिशत होता है.

    यदि हम इस समीकरण को शून्य, हमें लाइन के स्लोप के लिए -119.7 मिलता है.

    बायस डेरिवेटिव

    इसके संबंध में हानि फ़ंक्शन का अवकलज पक्षपात को इस तरह लिखा गया है:
    $ \frac{\p रीयल }{\pial b} \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)})^2 $

    और इस पर आकलन करता है:
    $ \frac{1}{M} \sum_{i=1}^{M} (f_{w,b}(x_{(i)}) - y_{(i)}) * 2 $

    सबसे पहले हम हर अनुमानित वैल्यू को जोड़कर, असल वैल्यू को घटा देते हैं और फिर इसे दो से गुणा करें. फिर हम योग को के उदाहरण हैं. इससे लाइन का स्लोप (ढलान) मिलता है बायस की वैल्यू के टैंजंट से.

    यदि हम इस समीकरण को शून्य, हमें लाइन के स्लोप के लिए -34.3 मिलता है.

  7. पाने के लिए कुछ मात्रा को ऋणात्मक ढाल की दिशा में ले जाएं के आधार पर तय करें. फ़िलहाल, हम स्वेच्छा से "छोटी रकम" 0.01 के रूप में:
  8. $$ \small{New\ weight = old\ weight - (small\ amount * weight\ slope)} $$ $$ \small{New\ bias = old\ bias - (small\ amount * bias\ slope)} $$ $$ \small{New\ weight = 0 - (0.01)*(-119.7)} $$ $$ \small{New\ bias = 0 - (0.01)*(-34.3)} $$ $$ \small{New\ weight = 1.2} $$ $$ \small{New\ bias = 0.34} $$

नुकसान की गणना करने और उसे दोहराने के लिए नए वज़न और पूर्वाग्रह का उपयोग करें. पूरी हो रही है प्रक्रिया को छह बार दोहराना है, तो हमें नीचे दिए गए वेट, पूर्वाग्रह, और और नुकसान:

इटरेशन वज़न पक्षपात नुकसान (MSE)
1 0 0 303.71
2 1.2 0.34 170.67
3 2.75 0.59 67.3
4 3.17 0.72 50.63
5 3.47 0.82 42.1
6 3.68 0.9 37.74

आप देख सकते हैं कि प्रत्येक अपडेट किए गए वज़न और पूर्वाग्रह के साथ घटता घटता हुआ कम होता है. इस उदाहरण में, हमने छह बार दोहराने के बाद काम करना बंद कर दिया. व्यावहारिक तौर पर, एक मॉडल तक ट्रेन कन्वर्ट. जब कोई मॉडल एक साथ काम करता है, तो बार-बार इस्तेमाल करने से नुकसान कम नहीं होता क्योंकि ग्रेडिएंट ढलान ने उस भार और पूर्वाग्रह को पाया है जो कम करने के लिए किया जा सकता है.

अगर मॉडल पिछले अभिसरण को ट्रेनिंग देना जारी रखता है, तो हानि से क्योंकि मॉडल लगातार अपडेट होता रहता है. इसलिए, छोटी-छोटी चीज़ों में लगातार बदलाव करता रहता है पैरामीटर में कम से कम वैल्यू होनी चाहिए. इससे यह काम करना मुश्किल हो सकता है यह पुष्टि करने के लिए कि मॉडल वास्तव में एक-दूसरे से मिला है. मॉडल की पुष्टि करने के लिए कन्वर्ज़न कर दिया है, तो आपको तब तक ट्रेनिंग जारी रखनी होगी, जब तक कि स्थिर हो गया.

मॉडल अभिसरण और हानि कर्व

मॉडल को ट्रेनिंग देते समय, आपको अक्सर कर्व का इस्तेमाल करके पता लगाया जा सकता है कि मॉडल में कन्वर्ट. लॉस कर्व दिखाता है कि मॉडल के ट्रेनिंग के साथ-साथ होने वाले नुकसान में भी क्या बदलाव होता है. आम तौर पर होने वाले नुकसान में ये चीज़ें शामिल होती हैं कर्व कैसा दिखता है. नुकसान y-ऐक्सिस पर है और x-ऐक्सिस पर दोहराव है:

इमेज 13. हानि कर्व का ग्राफ़ जिसमें तेज़ी से गिरावट और फिर हल्की गिरावट को दिखाया गया है.

13वीं इमेज. लॉस कर्व को दिखाता है कि मॉडल 1,000वां दोहराने का निशान.

पहली कुछ बार में यह देखा जा सकता है कि नुकसान में काफ़ी कमी आई है, फिर यह 1,000वें हिस्से के आस-पास बराबर होने से पहले धीरे-धीरे घट जाती है चिह्न. 1,000 बार दोहराने के बाद, हम इस बात पर ज़्यादा भरोसा कर सकते हैं कि मॉडल इकट्ठा हुए.

यहां दिए गए आंकड़ों में, हम ट्रेनिंग के दौरान मॉडल को तीन पॉइंट पर बनाते हैं प्रक्रिया: शुरुआत, बीच, और आखिर. मॉडल की स्थिति को विज़ुअलाइज़ करना के बीच के लिंक को मज़बूत बनाता है. वज़न और पूर्वाग्रह, घटता घटता, और मॉडल अभिसरण.

आंकड़ों में, हम व्युत्पन्न वेट और बायस का इस्तेमाल एक खास दोहराव पर करते हैं मॉडल का प्रतिनिधित्व करते हैं. डेटा पॉइंट और मॉडल स्नैपशॉट वाले ग्राफ़ में, मॉडल से डेटा पॉइंट तक की नीली लाइनों से, नुकसान की मात्रा का पता चलता है. कॉन्टेंट बनाने लंबी रेखाएं बनाने का मतलब है कि उनका नुकसान भी उतना ही ज़्यादा होगा.

नीचे दिए गए डायग्राम में, हम देख सकते हैं कि दूसरी बार कोशिश करने पर, मॉडल ज़्यादा नुकसान की वजह से अनुमान लगाना अच्छा नहीं होगा.

इमेज 14. मॉडल का लॉस कर्व और संबंधित ग्राफ़, जो डेटा पॉइंट से दूर की ओर झुका होता है.

14वीं इमेज. मॉडल की शुरुआत में लॉस कर्व और स्नैपशॉट ट्रेनिंग प्रोसेस पूरी होती है.

400वीं-दोहराव के दौरान, हम देख सकते हैं कि ग्रेडिएंट ढलान ने वज़न और पूर्वाग्रह होता है जो एक बेहतर मॉडल तैयार करता है.

इमेज 15. मॉडल का लॉस कर्व और संबंधित ग्राफ़, जो डेटा पॉइंट से कटता है, लेकिन सबसे सही ऐंगल पर नहीं.

इमेज 15. ट्रेनिंग के दौरान, रास्ते के बीच में मॉडल के बारे में लॉस कर्व और स्नैपशॉट.

और लगभग 1,000वीं-दोहराव के दौरान, हम देख सकते हैं कि मॉडल अब तक एक हो गया है, जिससे सबसे कम नुकसान वाला मॉडल तैयार हो.

इमेज 16. मॉडल का लॉस कर्व और संबंधित ग्राफ़, जो डेटा के हिसाब से सही हो.

इमेज 16. ट्रेनिंग खत्म होने के बाद, मॉडल का लॉस कर्व और स्नैपशॉट प्रोसेस.

व्यायाम: अपनी समझ की जांच करें

लीनियर रिग्रेशन में ग्रेडिएंट ढलान की क्या भूमिका है?
ग्रेडिएंट ढलान एक दोहराने वाली प्रक्रिया है, जो सबसे अच्छी वज़न और पूर्वाग्रह को कम करता है.
ग्रेडिएंट ढलान से यह तय करने में मदद मिलती है कि नुकसान होने की किस स्थिति का इस्तेमाल किया जाए मॉडल को ट्रेनिंग देना, जैसे कि L1 या L2.
किसी लॉस का डेटा चुनने में, ग्रेडिएंट ढलान शामिल नहीं होता है मॉडल ट्रेनिंग के लिए इस्तेमाल किया जाता है.
ग्रेडिएंट ढलान, डेटासेट से आउटलायर को हटाता है, ताकि मॉडल को मदद मिल सके करने में मदद मिलती है.
ग्रेडिएंट ढलान से डेटासेट में बदलाव नहीं होता.

अभिसरण और उत्तल फलन

रैखिक मॉडल के लिए हानि फलन हमेशा Convex सरफ़ेस के तौर पर दिखेगा. इस वजह से जब लीनियर रिग्रेशन मॉडल इकट्ठा होता है, तो हमें पता चलता है कि मॉडल सबसे कम नुकसान पहुंचाने वाले वज़न और पूर्वाग्रह को पाया.

अगर हम एक सुविधा वाले मॉडल की लॉस सरफ़ेस को ग्राफ़ पर दिखाते हैं, तो हम देख सकते हैं कि उत्तल आकार. मील प्रति गैलन डेटासेट के नुकसान की सतह नीचे दी गई है का इस्तेमाल पिछले उदाहरणों में किया गया है. वज़न x-ऐक्सिस पर है, बायस y-ऐक्सिस पर है, और नुकसान z-ऐक्सिस पर है:

इमेज 17. लॉस सरफ़ेस का 3-D ग्राफ़.

17वीं इमेज. खो जाने की वह सतह जो अपने उत्तल आकार को दिखाती है.

इस उदाहरण में, -5.44 का वेट और 35.94 का पूर्वाग्रह सबसे कम नुकसान देता है 5.54 बजे:

इमेज 18. लॉस सरफ़ेस का 3-D ग्राफ़, जिसके सबसे नीचे (-5.44, 35.94, 5.54) हैं.

इमेज 18. वज़न और पूर्वाग्रह की वैल्यू दिखाने वाली, नुकसान की सतह सबसे कम नुकसान होगा.

लीनियर मॉडल तब इकट्ठा होता है, जब उसे कम से कम नुकसान का पता चलता है. इसलिए, अतिरिक्त बार-बार दोहराए जाने से, ग्रेडिएंट ढलान में वज़न और पूर्वाग्रह की वैल्यू सिर्फ़ मूवमेंट के हिसाब से होती हैं न्यूनतम के आस-पास बहुत कम राशि होती है. अगर हमने वेट और बायस पॉइंट को ग्राफ़ पर दिखाया जब पॉइंट नीचे की तरफ़ जाते हैं, तो ऐसा लगता है जैसे कोई बॉल किसी पहाड़ी पर लुढ़कती हुई हो, जहां अब नीचे की ओर कोई और नहीं है.

इमेज 19. ग्रेडिएंट डिसेंट पॉइंट के साथ सबसे निचले पॉइंट पर जाने वाली 3-D लॉस सरफ़ेस को घुमाएं.

इमेज 19. लॉस ग्राफ़, जिसमें ग्रेडिएंट डिसेंट पॉइंट को सबसे कम पर रुकते हुए दिखाया गया है ग्राफ़ पर पॉइंट कर सकते हैं.

ध्यान दें कि ब्लैक लॉस पॉइंट, लॉस कर्व का सटीक आकार बनाते हैं: a सबसे ज़्यादा गिरावट से पहले धीरे-धीरे नीचे-नीचे तब तक तेज़ी से कम होना शुरू होगा, जब तक कि वह सबसे कम दर तक नहीं पहुंच जाता नुकसान की सतह पर मौजूद होना चाहिए.

यह ध्यान रखना ज़रूरी है कि यह मॉडल, उस मॉडल से मिलती-जुलती हर वज़न और पूर्वाग्रह के लिए न्यूनतम होता है, लेकिन इसके बजाय इसके काफ़ी करीब का मान ढूंढता है. यह ध्यान रखना भी ज़रूरी है कि महत्व और पूर्वाग्रह के लिए कम से कम शून्य लॉस के लिए इस्तेमाल होती है. सिर्फ़ वह वैल्यू जिसकी वजह से सबसे कम नुकसान होता है पैरामीटर.

वज़न और पूर्वाग्रह के उन मानों का इस्तेमाल करना जिनसे सबसे कम नुकसान होता है—इस मामले में का वज़न -5.44 और बायस 35.94 है—हम मॉडल का ग्राफ़ बनाकर, यह देख सकते हैं कि यह डेटा के हिसाब से सही है:

इमेज 20. मील प्रति गैलन के मुकाबले 1,000 सेकंड में पाउंड का ग्राफ़, जिसमें मॉडल डेटा के हिसाब से सही है.

इमेज 20. मॉडल को बनाने के लिए, वज़न और पूर्वाग्रह के मान का इस्तेमाल करके ग्राफ़ बनाया गया है सबसे कम नुकसान होगा.

यह इस डेटासेट के लिए सबसे अच्छा मॉडल होगा, क्योंकि इसमें कोई अन्य वेट और पूर्वाग्रह नहीं है वैल्यू, कम नुकसान वाला मॉडल तैयार करती हैं.