यह पुरानी बात है कि झींगुर (कीड़े-मकोड़ों की प्रजाति) गर्म दिनों की तुलना में ज़्यादा चिप किए जाते हैं. अलग-अलग दशकों से, पेशेवर और शौकिया वैज्ञानिकों ने डेटा की मदद से, हर मिनट के तापमान और चिप्स के डेटा को सूची में शामिल किया है. बर्थडे गिफ़्ट के तौर पर, आंटी रूथ आपको क्रिकेट से जुड़ा डेटाबेस देती हैं. वह आपसे कहती हैं कि इस रिश्ते के बारे में अनुमान लगाने के लिए, आपको एक मॉडल सीखना होगा. इस डेटा का इस्तेमाल करके, आपको इस संबंध की जानकारी चाहिए.
सबसे पहले, इसे प्लॉट करके अपने डेटा की जांच करें:
पहला डायग्राम. चिप प्रति मिनट बनाम सेल्सियस में तापमान.
उम्मीद के मुताबिक, इस प्लॉट पर तापमान बढ़ने के साथ ही झंकार का मतलब है. क्या यह झींगों और तापमान के बीच का संबंध है? हां, इस रिलेशनशिप का अनुमान लगाने के लिए, एक सीधी लाइन बनाई जा सकती है. जैसे:
दूसरा डायग्राम. लीनियर संबंध.
यह बात सही है कि लाइन हर बिंदु से नहीं गुज़रती है, लेकिन लाइन से चिंप और तापमान के बीच के संबंध के बारे में साफ़ तौर पर पता चलता है. किसी लाइन के लिए समीकरण का इस्तेमाल करके, आप इस संबंध को नीचे बताए गए तरीके से लिख सकते हैं:
कहां:
- \(y\) सेल्सियस तापमान है—जिस वैल्यू का हम अनुमान लगाने की कोशिश कर रहे हैं.
- \(m\) लाइन का ढलान है.
- \(x\) हर मिनट होने वाले चिंप की संख्या—हमारी इनपुट सुविधा की वैल्यू है.
- \(b\) y-इंटरसेप्ट है.
मशीन लर्निंग में कन्वेंशन के हिसाब से, आप किसी मॉडल के लिए समीकरण को थोड़े अलग तरीके से लिखेंगे:
कहां:
- \(y'\) अनुमानित लेबल है (अपनी पसंद का आउटपुट).
- \(b\) को झुकाव (y-इंटरसेप्ट) कहा जाता है. कभी-कभी इसे \(w_0\)भी कहा जाता है.
- \(w_1\) , सुविधा 1 का वज़न है. वज़न और सिद्धांत में मौजूद लाइन के नियम और वैल्यू \(m\) में एक ही सिद्धांत है.
- \(x_1\) एक सुविधा (एक जाना-माना इनपुट) है.
अगर आप \(y'\) चिप प्रति मिनट के मान \(x_1\)के लिए तापमान का अनुमान लगाना चाहते हैं, तो \(x_1\) वैल्यू को इस मॉडल से बदलें.
हालांकि, यह मॉडल सिर्फ़ एक सुविधा का इस्तेमाल करता है, लेकिन ज़्यादा सटीक मॉडल कई सुविधाओं पर निर्भर हो सकता है. हर सुविधा का वज़न अलग-अलग हो सकता है (\(w_1\), \(w_2\)वगैरह). उदाहरण के लिए, तीन सुविधाओं पर निर्भर कोई मॉडल ऐसा दिख सकता है: