התאמת יתר: מורכבות המודל

ביחידה הקודמת הוצג המודל הבא, שהסיווג שלו היה שגוי לגבי הרבה עצים בקבוצת הבדיקות:

איור 16. אותה תמונה כמו באיור 13. זהו צורה מורכבת שגורמת לקטגוריה שגויה של עצים רבים.
איור 16. המודל המורכב שמתנהג בצורה לא תקינה מהיחידה הקודמת.

המודל הקודם מכיל הרבה צורות מורכבות. האם מודל פשוט יותר יטפל טוב יותר בנתונים חדשים? נניח שתחליפו את המודל המורכב במודל פשוט מאוד – קו ישר.

איור 17. מודל קו ישר שמצליח להפריד בצורה מצוינת בין העצים החולים לעצים הבריאים.
איור 17. מודל פשוט הרבה יותר.

המודל הפשוט מספק תוצאות כלליות טובות יותר מאשר המודל המורכב בנתונים חדשים. כלומר, המודל הפשוט נתן תחזיות טובות יותר בקבוצת הבדיקה מאשר המודל המורכב.

הפשטות מנצחת את המורכבות כבר הרבה זמן. למעשה, העדפה לפשטות מתחילה ביוון העתיקה. מאות שנים לאחר מכן, נזיר מהמאה ה-14 בשם ויליאם מוקאם (William of Occam) הגדיר באופן רשמי את העדפת הפשטות בפילוסופיה שנקראת סכין הגילוח של מוקאם. הפילוסופיה הזו היא עדיין אחד העקרונות הבסיסיים של מדעים רבים, כולל למידת מכונה.

תרגילים: בדיקת ההבנה

אתם מפתחים משוואה פיזיקלית. איזו מהנוסחאות הבאות תואמת יותר לסכין אוקאם?
נוסחה עם 12 משתנים.
נוסחה עם שלושה משתנים.
אתם עובדים על פרויקט חדש של למידת מכונה, ועומדים לבחור את המאפיינים הראשונים. כמה תכונות כדאי לבחור?
כדאי לבחור כמה שיותר מאפיינים כדי שתוכלו להתחיל לראות לאילו מאפיינים יש את יכולת החיזוי החזקה ביותר.
בוחרים 1-3 תכונות שנראה שיש להן יכולת חיזוי חזקה.
בוחרים 4 עד 6 תכונות שנראה שיש להן יכולת חיזוי חזקה.

רגולריזציה

מודלים של למידת מכונה צריכים לעמוד בו-זמנית בשני יעדים מנוגדים:

  • התאמה טובה של הנתונים.
  • להתאים את הנתונים בצורה פשוטה ככל האפשר.

אחת מהגישות לשמירה על מודל פשוט היא להעניש מודלים מורכבים, כלומר לאלץ את המודל להיות פשוט יותר במהלך האימון. הטלת קנסות על מודלים מורכבים היא אחת מהדרכים לסדרה.

אובדן ומורכבות

עד עכשיו, התייחסנו בקורס הזה ליעד היחיד של אימון – צמצום ההפסד. כלומר:

minimize(loss)

כפי שראינו, מודלים שמתמקדים רק בהקטנת האובדן נוטים להתאמה יתר. אלגוריתם אופטימיזציה טוב יותר של אימון מקטין שילוב כלשהו של אובדן ומורכבות:

minimize(loss + complexity)

לצערנו, בדרך כלל יש קשר הפוך בין אובדן לבין מורכבות. ככל שהמורכבות עולה, ההפסד קטן. ככל שהמורכבות פוחתת, כך האובדן גדל. צריך למצוא דרך ביניים סבירה שבה המודל יניב תחזיות טובות גם בנתוני האימון וגם בנתונים מהעולם האמיתי. כלומר, המודלים צריכים למצוא פשרה סבירה בין אובדן למורכבות.

מהי מורכבות?

כבר ראינו כמה דרכים שונות למדוד את ההפסד. איך אפשר למדוד את המורכבות? כדי להתחיל את הניתוח, עליכם לבצע את התרגיל הבא:

תרגול: בדיקת האינטואיציה

עד עכשיו, התייחסנו באופן לא ברור למהות של מורכבות. לדעתכם, אילו מהרעיונות הבאים יכולים לשמש כמדדי מורכבות סבירים?
המורכבות היא פונקציה של המשקלים של המודל.
המורכבות היא פונקציה של ריבוע המשקלים של המודל.
המורכבות היא פונקציה של ההטיות של כל התכונות במודל.