एमएल में घटते हुए: लीनियर रिग्रेशन

यह पुरानी बात है कि झींगुर (कीड़े-मकोड़ों की प्रजाति) गर्म दिनों की तुलना में ज़्यादा चिप किए जाते हैं. अलग-अलग दशकों से, पेशेवर और शौकिया वैज्ञानिकों ने डेटा की मदद से, हर मिनट के तापमान और चिप्स के डेटा को सूची में शामिल किया है. बर्थडे गिफ़्ट के तौर पर, आंटी रूथ आपको क्रिकेट से जुड़ा डेटाबेस देती हैं. वह आपसे कहती हैं कि इस रिश्ते के बारे में अनुमान लगाने के लिए, आपको एक मॉडल सीखना होगा. इस डेटा का इस्तेमाल करके, आपको इस संबंध की जानकारी चाहिए.

सबसे पहले, इसे प्लॉट करके अपने डेटा की जांच करें:

चिरप्स/मिनट (x-ऐक्सिस) बनाम तापमान (y-एक्सिस) का रॉ डेटा.

पहला डायग्राम. चिप प्रति मिनट बनाम सेल्सियस में तापमान.

उम्मीद के मुताबिक, इस प्लॉट पर तापमान बढ़ने के साथ ही झंकार का मतलब है. क्या यह झींगों और तापमान के बीच का संबंध है? हां, इस रिलेशनशिप का अनुमान लगाने के लिए, एक सीधी लाइन बनाई जा सकती है. जैसे:

चिरप्स/मिनट (x-अक्ष) बनाम तापमान (y-एक्सिस) के बीच के संबंध को बताने वाली सबसे अच्छी लाइन.

दूसरा डायग्राम. लीनियर संबंध.

यह बात सही है कि लाइन हर बिंदु से नहीं गुज़रती है, लेकिन लाइन से चिंप और तापमान के बीच के संबंध के बारे में साफ़ तौर पर पता चलता है. किसी लाइन के लिए समीकरण का इस्तेमाल करके, आप इस संबंध को नीचे बताए गए तरीके से लिख सकते हैं:

$$ y = mx + b $$

कहां:

  • \(y\) सेल्सियस तापमान है—जिस वैल्यू का हम अनुमान लगाने की कोशिश कर रहे हैं.
  • \(m\) लाइन का ढलान है.
  • \(x\) हर मिनट होने वाले चिंप की संख्या—हमारी इनपुट सुविधा की वैल्यू है.
  • \(b\) y-इंटरसेप्ट है.

मशीन लर्निंग में कन्वेंशन के हिसाब से, आप किसी मॉडल के लिए समीकरण को थोड़े अलग तरीके से लिखेंगे:

$$ y' = b + w_1x_1 $$

कहां:

  • \(y'\) अनुमानित लेबल है (अपनी पसंद का आउटपुट).
  • \(b\) को झुकाव (y-इंटरसेप्ट) कहा जाता है. कभी-कभी इसे \(w_0\)भी कहा जाता है.
  • \(w_1\) , सुविधा 1 का वज़न है. वज़न और सिद्धांत में मौजूद लाइन के नियम और वैल्यू \(m\) में एक ही सिद्धांत है.
  • \(x_1\) एक सुविधा (एक जाना-माना इनपुट) है.

अगर आप \(y'\) चिप प्रति मिनट के मान \(x_1\)के लिए तापमान का अनुमान लगाना चाहते हैं, तो \(x_1\) वैल्यू को इस मॉडल से बदलें.

हालांकि, यह मॉडल सिर्फ़ एक सुविधा का इस्तेमाल करता है, लेकिन ज़्यादा सटीक मॉडल कई सुविधाओं पर निर्भर हो सकता है. हर सुविधा का वज़न अलग-अलग हो सकता है (\(w_1\), \(w_2\)वगैरह). उदाहरण के लिए, तीन सुविधाओं पर निर्भर कोई मॉडल ऐसा दिख सकता है:

$$y' = b + w_1x_1 + w_2x_2 + w_3x_3$$