התאמת יתר: תקינה של L2

רגולריזציה של L2 הוא מדד פופולרי של הרגולריזציה, שמשתמש בנוסחה הבאה:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

לדוגמה, הטבלה הבאה מציגה את החישוב של L2. הרגולריזציה של מודל עם שישה משקולות:

ערך ערך ריבוע
ש1 0.2 0.04
ש2 0.5- 0.25
ש3 5.0 25.0
ש4 1.2- 1.44
ש5 0.3 0.09
ש6 0.1- 0.01
    26.83 = סה"כ

שימו לב שמשקלים קרובים לאפס לא משפיעים על הרגולריזציה של L2 הרבה, אבל למשקולות גדולות יכולה להיות השפעה עצומה. לדוגמה, ב החישוב הקודם:

  • משקולת אחת (w3) תורמת כ-93% את המורכבות הכוללת.
  • חמשת המשקולות האחרים תורמים יחד רק כ-7% את המורכבות הכוללת.

L2 הרגולריזציה מעודדת משקולות להגיע ל-0, אבל אף פעם לא דוחפת את המשקולות עד לאפס.

תרגילים: בדקו את ההבנה שלכם

אם אתם משתמשים ברגולריזציה של L2 בזמן אימון של מודל, בדרך כלל יקרה למורכבות הכוללת של המודל?
סביר להניח שהמורכבות הכוללת של המערכת תרד.
מכיוון שרגנרציה L2 מעודדת משקולות לכיוון 0, המורכבות הכוללת ככל הנראה תרד.
המורכבות הכוללת של המודל תישאר באופן קבוע.
מאוד לא סביר.
סביר להניח שהמורכבות הכוללת של המודל תגדל.
זה לא סביר. חשוב לזכור שרגילה2 מעודד משקולות לכיוון 0.
אם אתם משתמשים ברגולריזציה של L2 בזמן אימון של מודל, חלק מהתכונות יוסרו מהמודל.
נכון
למרות שהקפדה על התאמה מסוג L2, היא עשויה להשפיע מאוד קטן, הוא אף פעם לא ידחוף משקולות עד לאפס. כתוצאה מכך, כל התכונות עדיין ישפיעו על את המודל.
לא נכון
ש2 הרגולריזציה אף פעם לא דוחפת משקולות עד הסוף אפס.

שיעור ההתאמה (lambda)

כפי שצוין, האימון מנסה לצמצם שילוב מסוים של אובדן ומורכבות:

$$\text{minimize(loss} + \text{ complexity)}$$

מפתחי מודלים מכוונים את ההשפעה הכוללת של המורכבות על אימון מודלים באמצעות הכפלת הערך בסקלר שנקרא regularization rate. התו היווני lambda מסמל בדרך כלל את שיעור הרגולריזציה.

כלומר, מפתחי מודלים שואפים לבצע את הפעולות הבאות:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

שיעור רגולרי (regularization) גבוה:

  • מחזק את השפעת הרגולריזציה ובכך מקטין את הסיכויים התאמת יתר.
  • נוטה להפיק היסטוגרמה של משקולות המודל עם מאפיינים:
    • התפלגות נורמלית
    • משקל ממוצע של 0.

שיעור רגיל (regularization) נמוך:

  • מקטין את השפעת הרגולריזציה, ובכך מגדיל את הסיכויים התאמת יתר.
  • נוטה להפיק היסטוגרמה של משקולות המודל בעל התפלגות שטוחה.

לדוגמה, ההיסטוגרמה של משקלי המודל עבור שיעור רגולרי גבוה עשוי להיראות כמו באיור 18.

איור 18. היסטוגרמה של משקלים של מודל עם ממוצע של אפס
            התפלגות נורמלית.
איור 18. שקלול היסטוגרמה כדי להגדיר שיעור רגיל גבוה. הממוצע הוא אפס. התפלגות רגילה.

 

לעומת זאת, שיעור נורמליזציה נמוך נוטה להניב היסטוגרמה שטוחה יותר, שמוצגת באיור 19.

איור 19. היסטוגרמה של משקלים של מודל עם ממוצע של אפס
            נמצא במקום בין התפלגות שטוחה והתפלגות נורמלית
            של הסבירות.
איור 19. שקלול ההיסטוגרמה של שיעור רגיל (regularization) נמוך. הממוצע לא יכול להיות אפס.

 

בחירת שיעור הרגולריזציה

שיעור הרגולריזציה האידיאלי יוצר מודל שמתייחס היטב של נתונים חדשים שלא נצפו בעבר. למרבה הצער, הערך האידיאלי הוא תלוי נתונים, ולכן אתם צריכים לעשות של כוונון עדין.

עצירה מוקדמת: חלופה ל הרגולריזציה מבוססת-מורכבות

עצירה מוקדמת היא שיטת רגולריזציה שלא כוללת חישוב של המורכבות. במקום זאת, עצירה מוקדמת פירושה פשוט סיום האימון לפני המודל מתכנסת במלואה. לדוגמה, לסיים את האימון כשעקומת ההפסד כשקבוצת האימות מתחילה לעלות (השיפוע הופך לחיובי).

עצירה מוקדמת בדרך כלל מגדילה את אובדן האימון, אבל היא עלולה לרדת הפסדים בבדיקה.

עצירה מוקדמת היא שיטה מהירה, אבל לעיתים נדירות ביותר. סביר מאוד שהמודל שמתקבל לא יהיה טוב כמו המודל שעבר אימון לקביעת שיעור הרגולריזציה האידיאלי.

מציאת שיווי המשקל בין קצב הלמידה לשיעור הרגולריזציה

שיעור למידה וגם שיעור הרגולריזציה נוטות למשוך משקולות לקבלת מסלול. קצב למידה גבוה בדרך כלל מושך משקולות הרחק מאפס. שיעור רגולרי גבוה מושך את המשקולות לערך אפס.

אם שיעור הרגולריזציה גבוה ביחס לקצב הלמידה, המשקולות החלשות נוטות ליצור מודל שיוצר תחזיות גרועות. לעומת זאת, אם קצב הלמידה גבוה ביחס לתהליך הרגולריזציה. ולכן המשקולות החזקות נוטות ליצור מודל התאמת יתר.

המטרה היא למצוא את שיווי המשקל בין קצב הלמידה שיעור הרגולריזציה. זה יכול להיות מאתגר. והכי גרוע, ברגע שמוצאים את האיזון החמקמק הזה, אולי תצטרכו לשנות בסופו של דבר את קצב הלמידה. וכשמשנים את קצב הלמידה, צריך למצוא שוב את שיעור הרגולריזציה.