लीनियर रिग्रेशन

यह मॉड्यूल लीनियर रिग्रेशन के सिद्धांतों के बारे में बताता है.

लीनियर रिग्रेशन आंकड़ों की तकनीक, जिसका इस्तेमाल वैरिएबल के बीच संबंध का पता लगाने के लिए किया जाता है. मशीन लर्निंग में संदर्भ के हिसाब से, लीनियर रिग्रेशन से सुविधाएं और label.

उदाहरण के लिए, मान लें कि हम मील प्रति में किसी कार की ईंधन दक्षता का अनुमान लगाना चाहते हैं गैलन कार के वज़न के हिसाब से है और हमारे पास नीचे दिया गया डेटासेट है:

1,000 सेकंड में पाउंड (सुविधा) माइल प्रति गैलन (लेबल)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

अगर हम ये पॉइंट दिखाते हैं, तो हमें यह ग्राफ़ मिलेगा:

चित्र 1.  डेटा पॉइंट, जो बाईं से दाईं ओर नीचे की ओर ढलान का रुझान दिखा रहे हैं.

पहली इमेज. कार का वज़न (पाउंड में) बनाम मील प्रति गैलन रेटिंग. बतौर जब कार भारी हो जाती है, तो मील प्रति गैलन रेटिंग सामान्य रूप से कम हो जाती है.

हम पॉइंट को शामिल करते हुए सबसे सही फ़िट लाइन बनाकर अपना मॉडल बना सकते हैं:

चित्र 2.  ऐसे डेटा पॉइंट जिनके बीच में सबसे सही फ़िट लाइन बनी है. इससे मॉडल का पता चलता है.

दूसरी इमेज. पिछले चित्र से डेटा के माध्यम से बनाई गई सबसे अच्छी फ़िट लाइन.

लीनियर रिग्रेशन इक्वेशन

बीजीय शब्दों में, मॉडल को $ y = mx + b $ के तौर पर बताया जाएगा, जहां

  • $ y $ मील प्रति गैलन है—जिस मूल्य का हम अनुमान लगाना चाहते हैं.
  • $ m $, लाइन का स्लोप है.
  • $ x $ पाउंड है—हमारी इनपुट वैल्यू.
  • $ b $, y-इंटरसेप्ट है.

एमएल में, लीनियर रिग्रेशन मॉडल के लिए समीकरण को इस तरह लिखा जाता है:

$$ y' = b + w_1x_1 $$

कहां:

  • साल दर साल $ अनुमानित लेबल है—आउटपुट.
  • $ b $, पक्षपात है कम कर देते हैं. बायस और अलजेब्रिक में y-इंटरसेप्ट का ही कॉन्सेप्ट है लाइन का इक्वेशन. ML में, पक्षपात को कभी-कभी $ w_0 $ भी कहा जाता है. पूर्वाग्रह , मॉडल का पैरामीटर है और का हिसाब ट्रेनिंग के दौरान लगाया जाता है.
  • $ w_1 $, इसका वज़न है सुविधा. वज़न का सिद्धांत वही है जो बीजगणित में स्लोप $ m $ का है लाइन का इक्वेशन. वज़न मॉडल का पैरामीटर है और इसका हिसाब लगाया जाता है.
  • $ x_1 $ एक सुविधा है—यह इनपुट.

ट्रेनिंग के दौरान, मॉडल वज़न और पूर्वाग्रह का पता लगाता है कि सबसे अच्छे नतीजे मॉडल.

चित्र 3.  समीकरण y' = b + w1x1. हर कॉम्पोनेंट के लिए इसके मकसद के बारे में बताया गया है.

तीसरी इमेज. गणितीय निरूपण (लीनियर मॉडल)

अपने उदाहरण में, हम बनाई गई लाइन से वज़न और पूर्वाग्रह की गणना करेंगे. कॉन्टेंट बनाने बायस 30 है (जहां लाइन y-ऐक्सिस को काटती है) और वज़न -3.6 है ( लाइन का स्लोप). मॉडल को $ y' के रूप में परिभाषित किया जाएगा = 30 + (-3.6)(x_1) $, और तो हम इसका इस्तेमाल पूर्वानुमान लगाने के लिए कर सकते हैं. उदाहरण के लिए, इस मॉडल का इस्तेमाल करने पर, अनुमान के मुताबिक, 4,000 पाउंड की कार में ईंधन की खपत 15.6 मील प्रति घंटा हो सकती है गैलन.

चित्र 4.  जैसा कि इमेज 2 में दिखाया गया है, जिसमें पॉइंट (4, 15.6) हाइलाइट किया गया है.

चौथी इमेज. इस मॉडल का इस्तेमाल करके, अनुमान के मुताबिक 4,000 पाउंड की कार 15.6 मील प्रति गैलन की ईंधन की बचत होती है.

कई सुविधाओं वाले मॉडल

हालांकि, इस सेक्शन के उदाहरण में सिर्फ़ एक सुविधा का इस्तेमाल किया गया है, जैसे कि भारीपन एक ज़्यादा बेहतर मॉडल कई सुविधाओं, हर एक का वज़न अलग है ($ w_1 $, $ w_2 $ वगैरह). उदाहरण के लिए, मॉडल जो पांच सुविधाओं पर निर्भर करती है, इस तरह लिखी जाएंगी:

साल दर साल = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

उदाहरण के लिए, गैस माइलेज का अनुमान लगाने वाला मॉडल, अन्य सुविधाओं का इस्तेमाल कर सकता है जैसे:

  • इंजन डिसप्लेसमेंट
  • त्वरण (एक्सेलेरेशन)
  • सिलेंडर की संख्या
  • हॉर्सपावर

इस मॉडल को इस तरह लिखा जाएगा:

चित्र 5.  पांच सुविधाओं वाला लीनियर रिग्रेशन समीकरण.

पांचवी इमेज. पांच सुविधाओं वाला मॉडल, जो कार मील प्रति गैलन का अनुमान लगाता है रेटिंग.

इनमें से कुछ अतिरिक्त सुविधाओं का ग्राफ़ बनाकर, हम देख सकते हैं कि उनके पास लेबल के साथ रैखिक संबंध, मील प्रति गैलन:

छठी इमेज. मील प्रति गैलन के हिसाब से ग्राफ़ में दिखाया गया क्यूबिक सेंटीमीटर में विस्थापन, जिसका नेगेटिव लीनियर संबंध है.

छठी इमेज. क्यूबिक सेंटीमीटर में कार का डिसप्लेसमेंट और मील प्रति गैलन रेटिंग. आम तौर पर, कार का इंजन बड़ा होने लगता है. आम तौर पर, इसकी मील प्रति गैलन रेटिंग होती है घटता है.

सातवीं इमेज. शून्य से साठ सेकंड में त्वरण, मील प्रति गैलन के हिसाब से ग्राफ़ में दिखाया गया है, जो एक सकारात्मक रैखिक संबंध दिखाता है.

सातवीं इमेज. कार की रफ़्तार और मील प्रति गैलन रेटिंग. कार की आम तौर पर, त्वरण में ज़्यादा समय लगता है. आम तौर पर, मील प्रति गैलन की रेटिंग बढ़ जाती है.

आठवीं इमेज. मील प्रति गैलन के हिसाब से ग्राफ़ में दिखाया गया हॉर्सपावर, जो नकारात्मक लीनियर रिलेशनशिप को दिखाता है.

आठवीं इमेज. कार की हॉर्सपावर और इसकी मील प्रति गैलन रेटिंग. कार की हॉर्सपावर बढ़ता है, जबकि मील प्रति गैलन रेटिंग सामान्य रूप से घट जाती है.

व्यायाम: अपनी समझ की जांच करें

ट्रेनिंग के दौरान, लीनियर रिग्रेशन इक्वेशन के कौनसे हिस्से अपडेट किए जाते हैं?
पूर्वाग्रह और महत्व
ट्रेनिंग के दौरान, मॉडल पक्षपात को अपडेट कर देता है और वज़न में कमी आती है.
सुझाव
ट्रेनिंग के दौरान, अनुमान अपडेट नहीं होते.
सुविधा की वैल्यू
सुविधा की वैल्यू, डेटासेट का हिस्सा हैं. इसलिए, उन्हें अपडेट नहीं किया जाता ट्रेनिंग के दौरान.
अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है