इस मॉड्यूल में, लीनियर रिग्रेशन के कॉन्सेप्ट के बारे में बताया गया है.
लीनियर रिग्रेशन एक सांख्यिकीय तकनीक है. इसका इस्तेमाल, वैरिएबल के बीच का संबंध ढूंढने के लिए किया जाता है. एमएल के संदर्भ में, लीनियर रिग्रेशन से सुविधाओं और लेबल के बीच का संबंध पता चलता है.
उदाहरण के लिए, मान लें कि हमें कार के वज़न के आधार पर, मील प्रति गैलन में कार की ईंधन की खपत का अनुमान लगाना है. साथ ही, हमारे पास यह डेटासेट है:
हज़ारों पाउंड (सुविधा) | मील प्रति गैलन (लेबल) |
---|---|
3.5 | 18 |
3.69 | 15 |
3.44 | 18 |
3.43 | 16 |
4.34 | 15 |
4.42 | 14 |
2.37 | 24 |
इन पॉइंट को प्लॉट करने पर, हमें यह ग्राफ़ दिखेगा:
पहली इमेज. कार का वज़न (पाउंड में) बनाम मील प्रति गैलन रेटिंग. कार के भारी होने पर, आम तौर पर उसकी माइलेज रेटिंग कम हो जाती है.
हम पॉइंट के बीच सबसे सही फ़िट लाइन खींचकर, अपना मॉडल बना सकते हैं:
दूसरी इमेज. पिछले आंकड़े के डेटा से खींची गई सबसे सही फ़िट लाइन.
लीनियर रिग्रेशन का समीकरण
बीजगणित के हिसाब से, मॉडल को $ y = mx + b $ के तौर पर परिभाषित किया जाएगा, जहां
- $ y $, एक गैलन में मील की संख्या है. यह वह वैल्यू है जिसका हमें अनुमान लगाना है.
- $ m $, लाइन का स्लोप है.
- $ x $ पाउंड है—यह हमारी इनपुट वैल्यू है.
- $ b $, y-इंटरसेप्ट है.
एमएल में, हम लीनियर रिग्रेशन मॉडल का समीकरण इस तरह लिखते हैं:
कहां:
- $ y' $, अनुमानित लेबल यानी आउटपुट है.
- $ b $, मॉडल का बायस है. बायस का वही कॉन्सेप्ट है जो किसी रेखा के लिए बीजगणितीय समीकरण में y-इंटरसेप्ट होता है. एमएल में, बायस को कभी-कभी $ w_0 $ कहा जाता है. बायस, मॉडल का पैरामीटर होता है और इसका हिसाब ट्रेनिंग के दौरान लगाया जाता है.
- $ w_1 $, फ़ीचर का वज़न है. अहमियत का कॉन्सेप्ट, किसी लाइन के लिए बीजगणितीय समीकरण में ढलान $ m $ जैसा ही है. वज़न, मॉडल का एक पैरामीटर होता है. इसकी गिनती, ट्रेनिंग के दौरान की जाती है.
- $ x_1 $ एक फ़ीचर है—वह वैल्यू जिसे डाला गया है.
ट्रेनिंग के दौरान, मॉडल उस वज़न और बायस का हिसाब लगाता है जिससे सबसे अच्छा मॉडल बनता है.
तीसरी इमेज. लीनियर मॉडल का गणितीय रूप से दिखाया गया डेटा.
हमारे उदाहरण में, हमने खींची गई लाइन से वज़न और बायस का हिसाब लगाया है. बियस 30 है (जहां लाइन y-ऐक्सिस को काटती है) और वज़न -3.6 है (लाइन का स्लोप). मॉडल को इस तरह से परिभाषित किया जाएगा: $ y' = 30 + (-3.6)(x_1) $. साथ ही, इसका इस्तेमाल अनुमान लगाने के लिए किया जा सकता है. उदाहरण के लिए, इस मॉडल का इस्तेमाल करके, 4,000 पाउंड की कार के लिए ईंधन की खपत का अनुमान 15.6 मील प्रति गैलन होगा.
चौथी इमेज. मॉडल का इस्तेमाल करके, 4,000 पाउंड की कार के लिए, ईंधन की खपत का अनुमानित अनुपात 15.6 मील प्रति गैलन है.
एक से ज़्यादा सुविधाओं वाले मॉडल
इस सेक्शन में दिए गए उदाहरण में, कार के वजन की सिर्फ़ एक सुविधा का इस्तेमाल किया गया है. हालांकि, ज़्यादा बेहतर मॉडल में कई सुविधाओं का इस्तेमाल किया जा सकता है. साथ ही, हर सुविधा का अलग वज़न ($ w_1 $, $ w_2 $ वगैरह) हो सकता है. उदाहरण के लिए, पांच सुविधाओं पर आधारित मॉडल को इस तरह लिखा जाएगा:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
उदाहरण के लिए, माइलेज का अनुमान लगाने वाला मॉडल, इन सुविधाओं का भी इस्तेमाल कर सकता है:
- इंजन का डिसप्लेसमेंट
- त्वरण (एक्सेलेरेशन)
- सिलिंडर की संख्या
- हॉर्सपावर
इस मॉडल को इस तरह लिखा जाएगा:
पांचवीं इमेज. कार के माइलेज की रेटिंग का अनुमान लगाने के लिए, पांच सुविधाओं वाला मॉडल.
इनमें से कुछ अन्य सुविधाओं को ग्राफ़ में दिखाकर, हम यह देख सकते हैं कि उनका भी, लेबल के साथ लीनियर संबंध है. जैसे, माइल प्रति गैलन:
छठी इमेज. क्यूबिक सेंटीमीटर में कार का डिसप्लेसमेंट और माइल प्रति गैलन रेटिंग. कार का इंजन जितना बड़ा होता है, उसकी माइलेज उतनी ही कम होती है.
सातवीं इमेज. कार की रफ़्तार और मील प्रति गैलन रेटिंग. कार को तेज़ी से चलाने में ज़्यादा समय लगने पर, आम तौर पर माइलेज की रेटिंग बढ़ जाती है.
आठवीं इमेज. कार का हॉर्सपावर और मील प्रति गैलन रेटिंग. कार की हॉर्स पावर बढ़ने पर, आम तौर पर माइलेज में कमी आती है.