लीनियर रिग्रेशन

इस मॉड्यूल में, लीनियर रिग्रेशन के कॉन्सेप्ट के बारे में बताया गया है.

लीनियर रिग्रेशन एक सांख्यिकीय तकनीक है. इसका इस्तेमाल, वैरिएबल के बीच का संबंध ढूंढने के लिए किया जाता है. एमएल के संदर्भ में, लीनियर रिग्रेशन से सुविधाओं और लेबल के बीच का संबंध पता चलता है.

उदाहरण के लिए, मान लें कि हमें कार के वज़न के आधार पर, मील प्रति गैलन में कार की ईंधन की खपत का अनुमान लगाना है. साथ ही, हमारे पास यह डेटासेट है:

हज़ारों पाउंड (सुविधा) मील प्रति गैलन (लेबल)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

इन पॉइंट को प्लॉट करने पर, हमें यह ग्राफ़ दिखेगा:

चित्र 1.  बाएं से दाएं, नीचे की ओर गिरते हुए रुझान को दिखाने वाले डेटा पॉइंट.

पहली इमेज. कार का वज़न (पाउंड में) बनाम मील प्रति गैलन रेटिंग. कार के भारी होने पर, आम तौर पर उसकी माइलेज रेटिंग कम हो जाती है.

हम पॉइंट के बीच सबसे सही फ़िट लाइन खींचकर, अपना मॉडल बना सकते हैं:

चित्र 2.  मॉडल को दिखाने वाले डेटा पॉइंट, जिनमें सबसे सही फ़िट लाइन खींची गई है.

दूसरी इमेज. पिछले आंकड़े के डेटा से खींची गई सबसे सही फ़िट लाइन.

लीनियर रिग्रेशन का समीकरण

बीजगणित के हिसाब से, मॉडल को $ y = mx + b $ के तौर पर परिभाषित किया जाएगा, जहां

  • $ y $, एक गैलन में मील की संख्या है. यह वह वैल्यू है जिसका हमें अनुमान लगाना है.
  • $ m $, लाइन का स्लोप है.
  • $ x $ पाउंड है—यह हमारी इनपुट वैल्यू है.
  • $ b $, y-इंटरसेप्ट है.

एमएल में, हम लीनियर रिग्रेशन मॉडल का समीकरण इस तरह लिखते हैं:

$$ y' = b + w_1x_1 $$

कहां:

  • $ y' $, अनुमानित लेबल यानी आउटपुट है.
  • $ b $, मॉडल का बायस है. बायस का वही कॉन्सेप्ट है जो किसी रेखा के लिए बीजगणितीय समीकरण में y-इंटरसेप्ट होता है. एमएल में, बायस को कभी-कभी $ w_0 $ कहा जाता है. बायस, मॉडल का पैरामीटर होता है और इसका हिसाब ट्रेनिंग के दौरान लगाया जाता है.
  • $ w_1 $, फ़ीचर का वज़न है. अहमियत का कॉन्सेप्ट, किसी लाइन के लिए बीजगणितीय समीकरण में ढलान $ m $ जैसा ही है. वज़न, मॉडल का एक पैरामीटर होता है. इसकी गिनती, ट्रेनिंग के दौरान की जाती है.
  • $ x_1 $ एक फ़ीचर है—वह वैल्यू जिसे डाला गया है.

ट्रेनिंग के दौरान, मॉडल उस वज़न और बायस का हिसाब लगाता है जिससे सबसे अच्छा मॉडल बनता है.

चित्र 3.  समीकरण y' = b + w1x1, जिसमें हर कॉम्पोनेंट के मकसद के बारे में एनोटेट किया गया है.

तीसरी इमेज. लीनियर मॉडल का गणितीय रूप से दिखाया गया डेटा.

हमारे उदाहरण में, हमने खींची गई लाइन से वज़न और बायस का हिसाब लगाया है. बियस 30 है (जहां लाइन y-ऐक्सिस को काटती है) और वज़न -3.6 है (लाइन का स्लोप). मॉडल को इस तरह से परिभाषित किया जाएगा: $ y' = 30 + (-3.6)(x_1) $. साथ ही, इसका इस्तेमाल अनुमान लगाने के लिए किया जा सकता है. उदाहरण के लिए, इस मॉडल का इस्तेमाल करके, 4,000 पाउंड की कार के लिए ईंधन की खपत का अनुमान 15.6 मील प्रति गैलन होगा.

चित्र 4.  यह वही ग्राफ़ है जो दूसरे चित्र में दिखाया गया है. इसमें पॉइंट (4, 15.6) को हाइलाइट किया गया है.

चौथी इमेज. मॉडल का इस्तेमाल करके, 4,000 पाउंड की कार के लिए, ईंधन की खपत का अनुमानित अनुपात 15.6 मील प्रति गैलन है.

एक से ज़्यादा सुविधाओं वाले मॉडल

इस सेक्शन में दिए गए उदाहरण में, कार के वजन की सिर्फ़ एक सुविधा का इस्तेमाल किया गया है. हालांकि, ज़्यादा बेहतर मॉडल में कई सुविधाओं का इस्तेमाल किया जा सकता है. साथ ही, हर सुविधा का अलग वज़न ($ w_1 $, $ w_2 $ वगैरह) हो सकता है. उदाहरण के लिए, पांच सुविधाओं पर आधारित मॉडल को इस तरह लिखा जाएगा:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

उदाहरण के लिए, माइलेज का अनुमान लगाने वाला मॉडल, इन सुविधाओं का भी इस्तेमाल कर सकता है:

  • इंजन का डिसप्लेसमेंट
  • त्वरण (एक्सेलेरेशन)
  • सिलिंडर की संख्या
  • हॉर्सपावर

इस मॉडल को इस तरह लिखा जाएगा:

चित्र 5.  पांच फ़ीचर वाला लीनियर रिग्रेशन समीकरण.

पांचवीं इमेज. कार के माइलेज की रेटिंग का अनुमान लगाने के लिए, पांच सुविधाओं वाला मॉडल.

इनमें से कुछ अन्य सुविधाओं को ग्राफ़ में दिखाकर, हम यह देख सकते हैं कि उनका भी, लेबल के साथ लीनियर संबंध है. जैसे, माइल प्रति गैलन:

छठी इमेज. क्यूबिक सेंटीमीटर में डिसप्लेसमेंट को मील प्रति गैलन के हिसाब से ग्राफ़ में दिखाया गया है. इससे नेगेटिव लीनियर रिलेशनशिप दिख रहा है.

छठी इमेज. क्यूबिक सेंटीमीटर में कार का डिसप्लेसमेंट और माइल प्रति गैलन रेटिंग. कार का इंजन जितना बड़ा होता है, उसकी माइलेज उतनी ही कम होती है.

सातवां चित्र. शून्य से साठ सेकंड में, मील प्रति गैलन के हिसाब से गति का ग्राफ़, पॉज़िटिव लीनियर रिलेशनशिप दिखा रहा है.

सातवीं इमेज. कार की रफ़्तार और मील प्रति गैलन रेटिंग. कार को तेज़ी से चलाने में ज़्यादा समय लगने पर, आम तौर पर माइलेज की रेटिंग बढ़ जाती है.

आठवां चित्र. माइल प्रति गैलन के हिसाब से हॉर्स पावर का ग्राफ़, जिसमें नेगेटिव लीनियर रिलेशनशिप दिख रहा है.

आठवीं इमेज. कार का हॉर्सपावर और मील प्रति गैलन रेटिंग. कार की हॉर्स पावर बढ़ने पर, आम तौर पर माइलेज में कमी आती है.

एक्सरसाइज़: देखें कि आपको क्या समझ आया

ट्रेनिंग के दौरान, लीनियर रिग्रेशन समीकरण के किन हिस्सों को अपडेट किया जाता है?
बायस और वेट
ट्रेनिंग के दौरान, मॉडल बायस और वेट को अपडेट करता है.
अनुमान
ट्रेनिंग के दौरान, अनुमान अपडेट नहीं किए जाते.
सुविधा की वैल्यू
फ़ीचर वैल्यू, डेटासेट का हिस्सा होती हैं. इसलिए, ट्रेनिंग के दौरान इन्हें अपडेट नहीं किया जाता.