ירד ל-ML: רגרסיה לינארית

מזה זמן רב ידוע לקריקטים (זן חרקים) שמצלצלים בתדירות גבוהה יותר בימים חמים יותר מאשר בימים קרים יותר. במשך עשורים, מדענים חובבים וחובבים יצרו קטלוגים של נתונים על פעימות לדקה. כמתנה ליום ההולדת, דודה רות תתן לכם את מסד הנתונים של משחקי הקריקט ותבקשו מכם ללמוד מודל לחיזוי הקשר הזה. באמצעות הנתונים האלה, אתם רוצים לבדוק את הקשר הזה.

קודם כל, בוחנים את הנתונים על ידי הצגתם:

נתונים גולמיים של צ'יפים לדקה (ציר ה-x) לעומת טמפרטורה (ציר y).

איור 1. צ'יפים לדקה לעומת טמפרטורה בצלזיוס.

כצפוי, התחזית מציגה את הטמפרטורה עם מספר הצ'יפים. האם הקשר הזה בין צ'יפים לבין טמפרטורה לינארית? כן, אפשר לשרטט קו ישר אחד כמו בדוגמאות הבאות כדי להעריך את הקשר:

הקו הטוב ביותר ליצירת קשר בין צ'יפים לדקה (ציר ה-x) לעומת הטמפרטורה (ציר ה-y).

איור 2. קשר לינארי.

כן, הקו לא עובר בכל נקודה, אבל הקו מראה בבירור את הקשר בין הצ'יפים והטמפרטורה. בעזרת המשוואה של קו, תוכלו לכתוב את הקשר הזה באופן הבא:

$$ y = mx + b $$

כאשר:

  • \(y\) היא הטמפרטורה בצלזיוס – הערך שאנחנו מנסים לחזות.
  • \(m\) הוא שיפוע של הקו.
  • \(x\) הוא מספר הפעימות לדקה – הערך של תכונת הקלט שלנו.
  • \(b\) החילוץ הוא Y.

לפי המוסכמה של הלמידה החישובית, צריך לכתוב את המשוואה של המודל קצת אחרת:

$$ y' = b + w_1x_1 $$

כאשר:

  • \(y'\) היא התווית הצפויה (הפלט הרצוי).
  • \(b\) ההטיה (ה יירוט Y), לפעמים מכונה \(w_0\).
  • \(w_1\) הוא המשקל של תכונה 1. המשקל זהה למשמעות של ה&מירכאות;&slope& \(m\) במשוואה המסורתית של קו.
  • \(x_1\) היא תכונה (קלט ידוע).

כדי להסיק את הטמפרטורה (לחזות) את \(y'\) הערך החדש של צ'יפים לדקה \(x_1\), פשוט מחליפים את הערך \(x_1\) במודל הזה.

מודל זה משתמש רק בתכונה אחת, אך מודל מתוחכם יותר עשוי להסתמך על כמה תכונות, ולכל אחת יש משקל נפרד (\(w_1\), \(w_2\)וכו'). לדוגמה, מודל המתבסס על שלוש תכונות עשוי להיראות כך:

$$y' = b + w_1x_1 + w_2x_2 + w_3x_3$$