הפסד הוא מדד מספרי שמתאר מידת השגיאה בחיזויים של מודל הן. המדד 'אובדן' מודד את המרחק בין החיזויים של המודל לבין התוצאות בפועל תוויות. המטרה של אימון המודל היא לצמצם את האובדן, לצמצם כערך הנמוך ביותר האפשרי.
בתמונה הבאה אפשר לראות תצוגה חזותית של אובדן כחיצים שנלקחים מהנתונים שמצביעים על המודל. החיצים מראים מה המרחק של החיזויים של המודל את הערכים בפועל.
איור 9. אובדן נמדד מהערך בפועל לערך החזוי.
מרחק אובדן
בסטטיסטיקה ובלמידת מכונה, אובדן מודד את ההבדל בין והערכים החזויים בפועל. אובדן מתמקד במרחק בין הערכים, ולא הכיוון. לדוגמה, אם מודל חוזה את הערך 2, אבל הערך בפועל הוא 5, לא אכפת לנו שההפסד הוא $ -3 $ ($ 2-5=-3 $). במקום זאת, חשוב לנו שהמרחק בין הערכים הוא 12 ש"ח. לכן, כל שיטות לחישוב אובדן מסירות את הסימן.
שתי השיטות הנפוצות ביותר להסרת הסמל הן:
- לוקחים את הערך המוחלט של ההפרש בין הערך בפועל צפי.
- חישוב ההפרש בין הערך בפועל לחיזוי.
סוגי אובדן
רגרסיה ליניארית יש ארבעה סוגים עיקריים של אובדן, והם מפורטים בטבלה הבאה.
סוג אובדן | הגדרה | משוואה |
---|---|---|
הפסד L1 | סכום הערכים המוחלטים של ההפרש בין הערכים החזויים לבין הערכים בפועל. | $ ∑ | ערך\ ערך - ערך חזוי\ (HKD ) |
שגיאה מוחלטת ממוצעת (MAE) | ממוצע של הפסדים של L1 בקבוצת דוגמאות. | $ \frac{1}{N} ∑ | ערך\ ערך - ערך חזוי\ (HKD ) |
הפסד L2 | סכום ההפרש בריבוע בין הערכים החזויים לבין הערכים בפועל. | $ ∑(הערך בפועל - הערך הצפוי)^2 $ |
שגיאה בריבוע ממוצע (MSE) | ממוצע של הפסדים של L2 בקבוצת דוגמאות. | $ \frac{1}{N} ∑ (הערך בפועל - הערך הצפוי)^2 $ |
ההבדל הפונקציונלי בין הפסד של L1 לאובדן של L2 (או בין MAE ל-MSE) מבצע ריבוע. כשההבדל בין חיזויים ותווית גדולים, ריבועים מגדיל את האובדן עוד יותר. כאשר הוא קטן (פחות מ-1), ריבועים מפחיתים את האובדן.
כשמעבדים כמה דוגמאות בבת אחת, מומלץ לחשב ממוצע של אובדן אובדן בכל הדוגמאות, בין אם באמצעות MAE או MSE.
דוגמה לחישוב הפסד
באמצעות השורה הקודמת שהכי מתאימה, אנחנו נחשב הפסד של L2 עבור דוגמה אחת. מתוך היו לנו הערכים הבאים של משקל והטיות:
- $ \small{weight: -3.6} $
- $ \small{Bias: 30} $
אם המודל חוזה שמכונית במשקל 9,500 ק"ג מקבלת 35 ק"ג לגלון, אבל בפועל שווה ל-38 מיילים לגלון, נחשב את הפסד ה-L2 כך ככה:
ערך | משוואה | תוצאה |
---|---|---|
חיזוי | $\small{bias + (weight * feature\ value)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21.5}$ |
ערך בפועל | $ \small{ label } $ | $ \small{ 24 } $ |
אובדן 2 L | $ \small{ (prediction -Actual\ value)^2} $ $\small{ (21.5 - 24)^2 }$ |
$\small{6.25}$ |
בדוגמה הזו, אובדן ה-L2 של הנקודה הבודדת על הגרף הוא 6.25.
בחירת הפסד
ההחלטה אם להשתמש ב-MAE או ב-MSE משתנה בהתאם למערך הנתונים ולאופן שבו אתם שרוצים לטפל בחיזויים מסוימים. רוב ערכי התכונות במערך נתונים בדרך כלל נמצאים בטווח נפרד. לדוגמה, מספר המכוניות בדרך כלל הוא בין 2,000 ל- 2,000 ק"ג וגם בין 22 ל-20 ק"מ לגלון. מכונית במשקל 8,000 ק"ג, או מכונית בעלת 160 ק"מ לגלון, נמצאת מחוץ לטווח הטיפוסי, נחשב חריג חשוד טעות.
ערך חריג חשוד גם יכול להתייחס למרחק בין החיזויים של המודל לבין הנתונים האמיתיים ערכים. למשל, מכונית עם 3,000 ק"ג או מכונית עם 65 ק"מ לגלון נמצאים בטווחים הטיפוסיים. לעומת זאת, מכונית במשקל 3,000 ק"ג מקבלת 40 מייל לגלון יהיה חריג חשוד טעות מבחינת החיזוי של המודל כי המודל י לחזות שמכונית במשקל 3,000 ק"ג תקבל בין 18 ל- 20 מיילים לגלון.
כשבוחרים את פונקציית האובדן הטובה ביותר, צריך לחשוב איך רוצים שהמודל יטפל חריגות חשודי טעות. למשל, MSE מעביר את המודל יותר כלפי חריגים חשודי טעות, ואילו MAE לא רואה. הפסד 2 יגרום לעונש גבוה בהרבה על חריג חריג הפסד 1. לדוגמה, בתמונות הבאות מוצג מודל שעבר אימון. באמצעות MAE ומודל שאומן באמצעות MSE. הקו האדום מייצג שעבר אימון מראש שישמש ליצירת תחזיות. יוצאי הדופן קרובים יותר אל את המודל שאומן באמצעות MSE מאשר למודל שאומן באמצעות MAE.
איור 10. מודל שעבר אימון באמצעות MSE מקרב את המודל לחריגים חשודי טעות.
איור 11. מודל שאומן באמצעות MAE רחוק יותר מחריגים חשודי טעות.
שימו לב ליחסים בין המודל לנתונים:
MSE. המודל קרוב יותר לחריגים, אבל רחוק יותר מרוב נקודות הנתונים האחרות.
MAE. המודל רחוק יותר מנקודות החריגות, אבל קרוב יותר לרוב נקודות הנתונים האחרות.
בדיקת ההבנה
נבחן את שתי התרשימים הבאים: