यह मॉड्यूल लीनियर रिग्रेशन के सिद्धांतों के बारे में बताता है.
लीनियर रिग्रेशन आंकड़ों की तकनीक, जिसका इस्तेमाल वैरिएबल के बीच संबंध का पता लगाने के लिए किया जाता है. मशीन लर्निंग में संदर्भ के हिसाब से, लीनियर रिग्रेशन से सुविधाएं और label.
उदाहरण के लिए, मान लें कि हम मील प्रति में किसी कार की ईंधन दक्षता का अनुमान लगाना चाहते हैं गैलन कार के वज़न के हिसाब से है और हमारे पास नीचे दिया गया डेटासेट है:
1,000 सेकंड में पाउंड (सुविधा) | माइल प्रति गैलन (लेबल) |
---|---|
3.5 | 18 |
3.69 | 15 |
3.44 | 18 |
3.43 | 16 |
4.34 | 15 |
4.42 | 14 |
2.37 | 24 |
अगर हम ये पॉइंट दिखाते हैं, तो हमें यह ग्राफ़ मिलेगा:
पहली इमेज. कार का वज़न (पाउंड में) बनाम मील प्रति गैलन रेटिंग. बतौर जब कार भारी हो जाती है, तो मील प्रति गैलन रेटिंग सामान्य रूप से कम हो जाती है.
हम पॉइंट को शामिल करते हुए सबसे सही फ़िट लाइन बनाकर अपना मॉडल बना सकते हैं:
दूसरी इमेज. पिछले चित्र से डेटा के माध्यम से बनाई गई सबसे अच्छी फ़िट लाइन.
लीनियर रिग्रेशन इक्वेशन
बीजीय शब्दों में, मॉडल को $ y = mx + b $ के तौर पर बताया जाएगा, जहां
- $ y $ मील प्रति गैलन है—जिस मूल्य का हम अनुमान लगाना चाहते हैं.
- $ m $, लाइन का स्लोप है.
- $ x $ पाउंड है—हमारी इनपुट वैल्यू.
- $ b $, y-इंटरसेप्ट है.
एमएल में, लीनियर रिग्रेशन मॉडल के लिए समीकरण को इस तरह लिखा जाता है:
कहां:
- साल दर साल $ अनुमानित लेबल है—आउटपुट.
- $ b $, पक्षपात है कम कर देते हैं. बायस और अलजेब्रिक में y-इंटरसेप्ट का ही कॉन्सेप्ट है लाइन का इक्वेशन. ML में, पक्षपात को कभी-कभी $ w_0 $ भी कहा जाता है. पूर्वाग्रह , मॉडल का पैरामीटर है और का हिसाब ट्रेनिंग के दौरान लगाया जाता है.
- $ w_1 $, इसका वज़न है सुविधा. वज़न का सिद्धांत वही है जो बीजगणित में स्लोप $ m $ का है लाइन का इक्वेशन. वज़न मॉडल का पैरामीटर है और इसका हिसाब लगाया जाता है.
- $ x_1 $ एक सुविधा है—यह इनपुट.
ट्रेनिंग के दौरान, मॉडल वज़न और पूर्वाग्रह का पता लगाता है कि सबसे अच्छे नतीजे मॉडल.
तीसरी इमेज. गणितीय निरूपण (लीनियर मॉडल)
अपने उदाहरण में, हम बनाई गई लाइन से वज़न और पूर्वाग्रह की गणना करेंगे. कॉन्टेंट बनाने बायस 30 है (जहां लाइन y-ऐक्सिस को काटती है) और वज़न -3.6 है ( लाइन का स्लोप). मॉडल को $ y' के रूप में परिभाषित किया जाएगा = 30 + (-3.6)(x_1) $, और तो हम इसका इस्तेमाल पूर्वानुमान लगाने के लिए कर सकते हैं. उदाहरण के लिए, इस मॉडल का इस्तेमाल करने पर, अनुमान के मुताबिक, 4,000 पाउंड की कार में ईंधन की खपत 15.6 मील प्रति घंटा हो सकती है गैलन.
चौथी इमेज. इस मॉडल का इस्तेमाल करके, अनुमान के मुताबिक 4,000 पाउंड की कार 15.6 मील प्रति गैलन की ईंधन की बचत होती है.
कई सुविधाओं वाले मॉडल
हालांकि, इस सेक्शन के उदाहरण में सिर्फ़ एक सुविधा का इस्तेमाल किया गया है, जैसे कि भारीपन एक ज़्यादा बेहतर मॉडल कई सुविधाओं, हर एक का वज़न अलग है ($ w_1 $, $ w_2 $ वगैरह). उदाहरण के लिए, मॉडल जो पांच सुविधाओं पर निर्भर करती है, इस तरह लिखी जाएंगी:
साल दर साल = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
उदाहरण के लिए, गैस माइलेज का अनुमान लगाने वाला मॉडल, अन्य सुविधाओं का इस्तेमाल कर सकता है जैसे:
- इंजन डिसप्लेसमेंट
- त्वरण (एक्सेलेरेशन)
- सिलेंडर की संख्या
- हॉर्सपावर
इस मॉडल को इस तरह लिखा जाएगा:
पांचवी इमेज. पांच सुविधाओं वाला मॉडल, जो कार मील प्रति गैलन का अनुमान लगाता है रेटिंग.
इनमें से कुछ अतिरिक्त सुविधाओं का ग्राफ़ बनाकर, हम देख सकते हैं कि उनके पास लेबल के साथ रैखिक संबंध, मील प्रति गैलन:
छठी इमेज. क्यूबिक सेंटीमीटर में कार का डिसप्लेसमेंट और मील प्रति गैलन रेटिंग. आम तौर पर, कार का इंजन बड़ा होने लगता है. आम तौर पर, इसकी मील प्रति गैलन रेटिंग होती है घटता है.
सातवीं इमेज. कार की रफ़्तार और मील प्रति गैलन रेटिंग. कार की आम तौर पर, त्वरण में ज़्यादा समय लगता है. आम तौर पर, मील प्रति गैलन की रेटिंग बढ़ जाती है.
आठवीं इमेज. कार की हॉर्सपावर और इसकी मील प्रति गैलन रेटिंग. कार की हॉर्सपावर बढ़ता है, जबकि मील प्रति गैलन रेटिंग सामान्य रूप से घट जाती है.