התאמת יתר: תקינה של L2

רגולריזציה _L2 היא מדד פופולרי של רגולריזציה, שמבוסס על הנוסחה הבאה:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

לדוגמה, בטבלה הבאה מוצג חישוב של רגולריזציה מסוג L₂ למודל עם שישה משקלים:

	ערך	ערך בריבוע
w₁	0.2	0.04
w₂	‎-0.5	0.25
w₃	5.0	25.0
w₄	‫1.2-	1.44
w₅	0.3	0.09
w₆	‫‎-0.1	0.01
		‫26.83 = סה"כ

שימו לב שמשקלים שקרובים לאפס לא משפיעים על הרגולריזציה L₂, אבל משקלים גדולים יכולים להשפיע מאוד. לדוגמה, בחישוב הקודם:

משקל אחד (w₃) תורם כ-93% מהמורכבות הכוללת.
חמשת המשקלים האחרים תורמים ביחד רק כ-7% מהמורכבות הכוללת.

רגולריזציה מסוג L₂ מעודדת משקלים להתקרב ל-0, אבל אף פעם לא דוחפת את המשקלים עד ל-0.

תרגילים: בדיקת ההבנה

אם משתמשים ברגולריזציה מסוג L₂ במהלך אימון מודל, מה בדרך כלל קורה למורכבות הכוללת של המודל?

סביר להניח שהמורכבות הכוללת של המערכת תפחת.

מכיוון שהרגולריזציה L₂ מעודדת משקלים שמתקרבים ל-0, סביר להניח שהמורכבות הכוללת תרד.

המורכבות הכוללת של המודל כנראה תישאר קבועה.

זה לא סביר.

סביר להניח שהמורכבות הכוללת של המודל תגדל.

זה לא סביר. חשוב לזכור שרגולריזציה מסוג L₂ מעודדת משקלים שמתקרבים ל-0.

אם משתמשים ברגולריזציה מסוג L₂ במהלך אימון המודל, חלק מהתכונות יוסרו מהמודל.

True

למרות שרגולריזציה מסוג L₂ עשויה להקטין מאוד חלק מהמשקלים, היא אף פעם לא תדחוף משקלים עד לאפס. לכן, כל התכונות עדיין יתרמו משהו למודל.

לא נכון

רגולריזציה מסוג L₂ אף פעם לא דוחפת את המשקלים עד לאפס.

שיעור רגולריזציה (lambda)

כמו שצוין, האימון מנסה למזער שילוב כלשהו של הפסד ומורכבות:

$$\text{minimize(loss} + \text{ complexity)}$$

מפתחי המודלים מכווננים את ההשפעה הכוללת של המורכבות על אימון המודל על ידי הכפלת הערך שלה בסקלר שנקרא שיעור הרגולריזציה. האות היוונית למדא מסמלת בדרך כלל את שיעור הרגולריזציה.

כלומר, מפתחי המודלים שואפים לבצע את הפעולות הבאות:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

שיעור רגולריזציה גבוה:

היא מחזקת את ההשפעה של הרגולריזציה, וכך מפחיתה את הסיכוי להתאמת יתר.
בדרך כלל נוצרת היסטוגרמה של משקלי המודל עם המאפיינים הבאים:
- התפלגות נורמלית
- משקל ממוצע של 0.

שיעור רגולריזציה נמוך:

מפחית את ההשפעה של הרגולריזציה, וכך מגדיל את הסיכויים להתאמת יתר.
נוטה ליצור היסטוגרמה של משקלי המודל עם פיזור שטוח.

לדוגמה, ההיסטוגרמה של משקלי המודל לשיעור רגולריזציה גבוה עשויה להיראות כמו באיור 18.

איור 18. היסטוגרמה של משקלי מודל עם ממוצע של אפס והתפלגות נורמלית. — **איור 18.** היסטוגרמת משקלים לשיעור רגולריזציה גבוה. הממוצע הוא אפס. התפלגות נורמלית.

לעומת זאת, שיעור רגולריזציה נמוך בדרך כלל יוצר היסטוגרמה שטוחה יותר, כמו שמוצג באיור 19.

איור 19. היסטוגרמה של משקלי מודל עם ממוצע של אפס, שנמצאת איפשהו בין התפלגות שטוחה לבין התפלגות נורמלית. — **איור 19.** היסטוגרמת משקלים עם שיעור רגולריזציה נמוך. הממוצע יכול להיות אפס, אבל לא בהכרח.

הסיכון להתאמת יתר הוא הגבוה ביותר.

בחירת שיעור הרגולריזציה

שיעור הרגולריזציה האידיאלי יוצר מודל שמבצע הכללה טובה לנתונים חדשים שלא נראו קודם. לצערנו, הערך האידיאלי הזה תלוי בנתונים, ולכן צריך לבצע כוונון.

עצירה מוקדמת: חלופה לרגולריזציה מבוססת-מורכבות

עצירה מוקדמת היא שיטת רגולריזציה שלא כוללת חישוב של מורכבות. במקום זאת, עצירה מוקדמת פשוט אומרת לסיים את האימון לפני שהמודל מתכנס באופן מלא. לדוגמה, מפסיקים את האימון כשהעקומה של הפסד עבור קבוצת נתונים לתיקוף מתחילה לעלות (השיפוע הופך לחיובי).

למרות שבדרך כלל עצירה מוקדמת מגדילה את הפסד האימון, היא יכולה להקטין את הפסד הבדיקה.

עצירה מוקדמת היא שיטה מהירה, אבל לרוב לא אופטימלית, של רגולריזציה. סביר מאוד שהמודל שיתקבל לא יהיה טוב כמו מודל שעבר אימון יסודי על שיעור הרגולריזציה האידיאלי.

מציאת שיווי משקל בין קצב הלמידה לבין קצב הרגולריזציה

קצב הלמידה וקצב הרגולריזציה נוטים להזיז את המשקלים בכיוונים מנוגדים. קצב למידה גבוה לרוב מושך את המשקלים הרחק מאפס, ושיעור רגולריזציה גבוה דוחף את המשקלים לעבר אפס.

אם קצב הרגולריזציה גבוה ביחס לקצב הלמידה, המשקלים החלשים נוטים ליצור מודל שמפיק תחזיות לא מדויקות. לעומת זאת, אם קצב הלמידה גבוה ביחס לשיעור הרגולריזציה, המשקלים הגבוהים נוטים ליצור מודל עם התאמת יתר.

המטרה היא למצוא את שיווי המשקל בין קצב הלמידה לבין קצב הרגולריזציה. זה יכול להיות מאתגר. הבעיה הכי גדולה היא שאחרי שמגיעים ליתרה הרצויה, יכול להיות שבסופו של דבר צריך לשנות את קצב הלמידה. בנוסף, כשמשנים את קצב הלמידה, צריך למצוא שוב את קצב הרגולריזציה האידיאלי.

מורכבות המודל (10 דקות)

פרשנות של עקומות אובדן (10 דקות)