Loss הוא מדד מספרי שמתאר את מידת השגיאה בתחזיות של המודל. האובדן משקף את המרחק בין התחזיות של המודל לבין התוויות בפועל. המטרה של אימון מודל היא למזער את האובדן, ולהפחית אותו לערך הנמוך ביותר האפשרי.
בתמונה הבאה אפשר לראות את האובדן כחצים שמתחילים בנקודות הנתונים ומגיעים אל המודל. החצים מראים את המרחק בין התחזיות של המודל לבין הערכים בפועל.
איור 9. ההפסד נמדד מהערך בפועל לערך הצפוי.
מרחק האובדן
בסטטיסטיקה ובלמידת מכונה, אובדן הוא המדד של ההפרש בין הערכים הצפויים לבין הערכים בפועל. פונקציית האובדן מתמקדת במרחק בין הערכים, ולא בכיוון. לדוגמה, אם מודל צופה ערך של 2, אבל הערך בפועל הוא 5, לא משנה לנו שהאובדן הוא שלילי (-3$, 2-5=-3$). במקום זאת, חשוב לנו שהמרחק בין הערכים הוא 3$. לכן, בכל השיטות לחישוב האובדן מסירים את הסימן.
אלה שתי השיטות הנפוצות ביותר להסרת התווית:
- מחשבים את הערך המוחלט של ההפרש בין הערך בפועל לבין התחזית.
- הופכים את ההפרש בין הערך בפועל לבין התחזית לריבוע.
סוגי ההפסדים
ברגרסיה לינארית יש ארבעה סוגים עיקריים של אובדן, שמפורטים בטבלה הבאה.
סוג ההפסד | הגדרה | משוואה |
---|---|---|
אובדן 1 | סכום הערכים המוחלטים של ההפרש בין הערכים הצפויים לבין הערכים בפועל. | $ ∑ | actual\ value - predicted\ value | $ |
שגיאה ממוצעת (MAE) | הממוצע של ההפסדים ב-L1 בקבוצת דוגמאות. | $ \frac{1}{N} ∑ | actual\ value - predicted\ value | $ |
אובדן נתונים מסוג L2 | סכום ההפרש המרובע בין הערכים הצפויים לבין הערכים בפועל. | $ ∑(actual\ value - predicted\ value)^2 $ |
שגיאה ריבועית ממוצעת (MSE) | הממוצע של אובדני L2 בקבוצת דוגמאות. | $ \frac{1}{N} ∑ (actual\ value - predicted\ value)^2 $ |
ההבדל הפונקציונלי בין אובדן L1 לאובדן L2 (או בין MAE ל-MSE) הוא העלאה בריבוע. כאשר ההבדל בין התחזית לבין התווית גדול, החזקה בריבועים גורמת לירידה גדולה יותר ברמת האובדן. כשההבדל קטן (פחות מ-1), העלאה בריבוע גורמת לירידה נוספת בהפסד.
כשמעובדים כמה דוגמאות בו-זמנית, מומלץ לחשב את הממוצע של ההפסדים בכל הדוגמאות, בין שבשימוש ב-MAE ובין שבשימוש ב-MSE.
דוגמה לחישוב אובדן
באמצעות קו ההתאמה הטוב ביותר הקודם, נחשב את אובדן L2 לדוגמה אחת. מהקו של ההתאמה הטובה ביותר, קיבלנו את הערכים הבאים למשקל ולשיפוי:
- $ \small{Weight: -3.6} $
- $ \small{Bias: 30} $
אם המודל צופה שצריכת הדלק של רכב במשקל 1,075 ק"ג היא 8.7 ק"מ לליטר, אבל בפועל צריכת הדלק היא 9.9 ק"מ לליטר, נחשב את אובדן L2 באופן הבא:
ערך | משוואה | תוצאה |
---|---|---|
חיזוי | $\small{bias + (weight * feature\ value)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21.5}$ |
ערך בפועל | $ \small{ label } $ | $ \small{ 24 } $ |
אובדן L2 | $ \small{ (prediction - actual\ value)^2} $ $\small{ (21.5 - 24)^2 }$ |
$\small{6.25}$ |
בדוגמה הזו, אובדן ה-L2 של נקודת הנתונים היחידה הזו הוא 6.25.
בחירת אובדן
ההחלטה אם להשתמש ב-MAE או ב-MSE יכולה להשתנות בהתאם למערך הנתונים ולדרך שבה רוצים לטפל בתחזיות מסוימות. בדרך כלל, רוב ערכי המאפיינים במערך נתונים נמצאים בטווח מסוים. לדוגמה, משקל המכוניות בדרך כלל נע בין 2,000 ל-5,000 פאונד, והן צורכות בין 8 ל-50 מייל לגלון. רכב במשקל 3,628 ק"ג או רכב עם תצרוכת דלק של 4.2 ק"מ לליטר חורג מהטווח הרגיל, וייחשב כחריג.
חריג יכול גם להתייחס למרחק בין התחזיות של מודל לבין הערכים האמיתיים. לדוגמה, משקל של 3,000 פאונד נמצא בטווח המשקל הממוצע של כלי רכב, ו-40 מייל לגלון נמצא בטווח היעילות האנרגטית הממוצע. עם זאת, רכב במשקל 3,000 פאונד שצורך 40 מייל לגלון יהיה חריג מבחינת החיזוי של המודל, כי המודל יחזה שרכב במשקל 3,000 פאונד צורך בין 18 ל-20 מייל לגלון.
כשבוחרים את פונקציית ההפסד הטובה ביותר, צריך להביא בחשבון איך רוצים שהמודל יטפל בערכים חריגים. לדוגמה, MSE גורם להזזה של המודל לכיוון הערכים החריגים, בעוד ש-MAE לא גורם לכך. אובדן L2 גורם לעונש גבוה בהרבה על חריגים מאשר אובדן L1. לדוגמה, בתמונות הבאות מוצג מודל שהוכשר באמצעות MAE ומודל שהוכשר באמצעות MSE. הקו האדום מייצג מודל שהוכשרה במלואו, שישמש לביצוע תחזיות. הערכים החריגים קרובים יותר למודל שאומן באמצעות MSE מאשר למודל שאומן באמצעות MAE.
איור 10. מודל שמתאמן באמצעות MSE נע יותר קרוב לערכים החריגים.
איור 11. מודל שהודרן באמצעות MAE רחוק יותר מהערכים החריגים.
שימו לב לקשר בין המודל לבין הנתונים:
MSE. המודל קרוב יותר לערכים החריגים, אבל רחוק יותר מרוב נקודות הנתונים האחרות.
MAE. המודל רחוק יותר מהערכים החריגים, אבל קרוב יותר לרוב נקודות הנתונים האחרות.
בדיקת ההבנה
נבחן את שני התרשימים הבאים: