רגרסיה לינארית: אובדן

הפסד הוא מדד מספרי שמתאר מידת השגיאה בחיזויים של מודל הן. המדד 'אובדן' מודד את המרחק בין החיזויים של המודל לבין התוצאות בפועל תוויות. המטרה של אימון המודל היא לצמצם את האובדן, לצמצם כערך הנמוך ביותר האפשרי.

בתמונה הבאה אפשר לראות תצוגה חזותית של אובדן כחיצים שנלקחים מהנתונים שמצביעים על המודל. החיצים מראים מה המרחק של החיזויים של המודל את הערכים בפועל.

איור 9. קווי אובדן מחברים את נקודות הנתונים
מודל טרנספורמר.

איור 9. אובדן נמדד מהערך בפועל לערך החזוי.

מרחק אובדן

בסטטיסטיקה ובלמידת מכונה, אובדן מודד את ההבדל בין והערכים החזויים בפועל. אובדן מתמקד במרחק בין הערכים, ולא הכיוון. לדוגמה, אם מודל חוזה את הערך 2, אבל הערך בפועל הוא 5, לא אכפת לנו שההפסד הוא $ -3 $ ($ 2-5=-3 $). במקום זאת, חשוב לנו שהמרחק בין הערכים הוא 12 ש"ח. לכן, כל שיטות לחישוב אובדן מסירות את הסימן.

שתי השיטות הנפוצות ביותר להסרת הסמל הן:

  • לוקחים את הערך המוחלט של ההפרש בין הערך בפועל צפי.
  • חישוב ההפרש בין הערך בפועל לחיזוי.

סוגי אובדן

רגרסיה ליניארית יש ארבעה סוגים עיקריים של אובדן, והם מפורטים בטבלה הבאה.

סוג אובדן הגדרה משוואה
הפסד L1 סכום הערכים המוחלטים של ההפרש בין הערכים החזויים לבין הערכים בפועל. $ ∑ | ערך\ ערך - ערך חזוי\ (HKD )
שגיאה מוחלטת ממוצעת (MAE) ממוצע של הפסדים של L1 בקבוצת דוגמאות. $ \frac{1}{N} ∑ | ערך\ ערך - ערך חזוי\ (HKD )
הפסד L2 סכום ההפרש בריבוע בין הערכים החזויים לבין הערכים בפועל. $ ∑(הערך בפועל - הערך הצפוי)^2 $
שגיאה בריבוע ממוצע (MSE) ממוצע של הפסדים של L2 בקבוצת דוגמאות. $ \frac{1}{N} ∑ (הערך בפועל - הערך הצפוי)^2 $

ההבדל הפונקציונלי בין הפסד של L1 לאובדן של L2 (או בין MAE ל-MSE) מבצע ריבוע. כשההבדל בין חיזויים ותווית גדולים, ריבועים מגדיל את האובדן עוד יותר. כאשר הוא קטן (פחות מ-1), ריבועים מפחיתים את האובדן.

כשמעבדים כמה דוגמאות בבת אחת, מומלץ לחשב ממוצע של אובדן אובדן בכל הדוגמאות, בין אם באמצעות MAE או MSE.

דוגמה לחישוב הפסד

באמצעות השורה הקודמת שהכי מתאימה, אנחנו נחשב הפסד של L2 עבור דוגמה אחת. מתוך היו לנו הערכים הבאים של משקל והטיות:

  • $ \small{weight: -3.6} $
  • $ \small{Bias: 30} $

אם המודל חוזה שמכונית במשקל 9,500 ק"ג מקבלת 35 ק"ג לגלון, אבל בפועל שווה ל-38 מיילים לגלון, נחשב את הפסד ה-L2 כך ככה:

ערך משוואה תוצאה
חיזוי

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
ערך בפועל $ \small{ label } $ $ \small{ 24 } $
אובדן 2 L

$ \small{ (prediction -Actual\ value)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

בדוגמה הזו, אובדן ה-L2 של הנקודה הבודדת על הגרף הוא 6.25.

בחירת הפסד

ההחלטה אם להשתמש ב-MAE או ב-MSE משתנה בהתאם למערך הנתונים ולאופן שבו אתם שרוצים לטפל בחיזויים מסוימים. רוב ערכי התכונות במערך נתונים בדרך כלל נמצאים בטווח נפרד. לדוגמה, מספר המכוניות בדרך כלל הוא בין 2,000 ל- 2,000 ק"ג וגם בין 22 ל-20 ק"מ לגלון. מכונית במשקל 8,000 ק"ג, או מכונית בעלת 160 ק"מ לגלון, נמצאת מחוץ לטווח הטיפוסי, נחשב חריג חשוד טעות.

ערך חריג חשוד גם יכול להתייחס למרחק בין החיזויים של המודל לבין הנתונים האמיתיים ערכים. למשל, מכונית עם 3,000 ק"ג או מכונית עם 65 ק"מ לגלון נמצאים בטווחים הטיפוסיים. לעומת זאת, מכונית במשקל 3,000 ק"ג מקבלת 40 מייל לגלון יהיה חריג חשוד טעות מבחינת החיזוי של המודל כי המודל י לחזות שמכונית במשקל 3,000 ק"ג תקבל בין 18 ל- 20 מיילים לגלון.

כשבוחרים את פונקציית האובדן הטובה ביותר, צריך לחשוב איך רוצים שהמודל יטפל חריגות חשודי טעות. למשל, MSE מעביר את המודל יותר כלפי חריגים חשודי טעות, ואילו MAE לא רואה. הפסד 2 יגרום לעונש גבוה בהרבה על חריג חריג הפסד 1. לדוגמה, בתמונות הבאות מוצג מודל שעבר אימון. באמצעות MAE ומודל שאומן באמצעות MSE. הקו האדום מייצג שעבר אימון מראש שישמש ליצירת תחזיות. יוצאי הדופן קרובים יותר אל את המודל שאומן באמצעות MSE מאשר למודל שאומן באמצעות MAE.

איור 10. המודל נוטה יותר אל חריגים חשודי טעות.

איור 10. מודל שעבר אימון באמצעות MSE מקרב את המודל לחריגים חשודי טעות.

איור 11. המודל נוטה הרחק יותר מחריגים חשודי טעות.

איור 11. מודל שאומן באמצעות MAE רחוק יותר מחריגים חשודי טעות.

שימו לב ליחסים בין המודל לנתונים:

  • MSE. המודל קרוב יותר לחריגים, אבל רחוק יותר מרוב נקודות הנתונים האחרות.

  • MAE. המודל רחוק יותר מנקודות החריגות, אבל קרוב יותר לרוב נקודות הנתונים האחרות.

בדיקת ההבנה

נבחן את שתי התרשימים הבאים:

עלילה של 10 נקודות.
      קו עובר לאורך 6 מהנקודות. 2 נקודות הן יחידה אחת
      מעל לקו; 2 נקודות נוספות הן יחידה אחת מתחת לקו. עלילה של 10 נקודות. הקו פועל
      עד 8 מהנקודות. נקודה אחת שווה 2 יחידות
      מעל לקו; נקודה אחת נוספת נמצאת במרחק 2 יחידות מתחת לקו.
איזו מבין שתי מערכי הנתונים המוצגות בתרשימים הקודמים יש שגיאה בריבוע הממוצע גבוה (MSE)?
מערך הנתונים בצד שמאל.
שש הדוגמאות שבשורה מובילות להפסד כולל של 0. ארבע דוגמאות שלא נמצאות בשורה לא נמצאות רחוק מאוד, כך שאפילו חישוב הקיזוז שלו עדיין מניב ערך נמוך: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
מערך הנתונים מימין.
שמונה הדוגמאות שבשורה גורמות להפסד כולל של 0. אבל, לפעמים למרות שרק שתי נקודות מגיעות מהקו, שתיהן רחוקות פי שניים מהקו של נקודות החריגות באיור משמאל. ריבוע עם ריבוע מגדיל את ההבדלים האלה, כך שהקיזוז של שני עלול לגרום להפסד גדול פי ארבעה מקיזוז מבין האפשרויות הבאות: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$