רגולריזציה L2 היא מדד פופולרי של רגולריזציה, שמבוסס על הנוסחה הבאה:
לדוגמה, בטבלה הבאה מוצג חישוב של רגולריזציה מסוג L2 למודל עם שישה משקלים:
| ערך | ערך בריבוע | |
|---|---|---|
| w1 | 0.2 | 0.04 |
| w2 | -0.5 | 0.25 |
| w3 | 5.0 | 25.0 |
| w4 | 1.2- | 1.44 |
| w5 | 0.3 | 0.09 |
| w6 | -0.1 | 0.01 |
| 26.83 = סה"כ |
שימו לב שמשקלים שקרובים לאפס לא משפיעים על הרגולריזציה L2, אבל משקלים גדולים יכולים להשפיע מאוד. לדוגמה, בחישוב הקודם:
- משקל אחד (w3) תורם כ-93% מהמורכבות הכוללת.
- חמשת המשקלים האחרים תורמים ביחד רק כ-7% מהמורכבות הכוללת.
רגולריזציה מסוג L2 מעודדת משקלים להתקרב ל-0, אבל אף פעם לא דוחפת את המשקלים עד ל-0.
תרגילים: בדיקת ההבנה
שיעור רגולריזציה (lambda)
כמו שצוין, האימון מנסה למזער שילוב כלשהו של הפסד ומורכבות:
מפתחי המודלים מכווננים את ההשפעה הכוללת של המורכבות על אימון המודל על ידי הכפלת הערך שלה בסקלר שנקרא שיעור הרגולריזציה. האות היוונית למדא מסמלת בדרך כלל את שיעור הרגולריזציה.
כלומר, מפתחי המודלים שואפים לבצע את הפעולות הבאות:
שיעור רגולריזציה גבוה:
- היא מחזקת את ההשפעה של הרגולריזציה, וכך מפחיתה את הסיכוי להתאמת יתר.
- בדרך כלל נוצרת היסטוגרמה של משקלי המודל עם המאפיינים הבאים:
- התפלגות נורמלית
- משקל ממוצע של 0.
שיעור רגולריזציה נמוך:
- מפחית את ההשפעה של הרגולריזציה, וכך מגדיל את הסיכויים להתאמת יתר.
- נוטה ליצור היסטוגרמה של משקלי המודל עם פיזור שטוח.
לדוגמה, ההיסטוגרמה של משקלי המודל לשיעור רגולריזציה גבוה עשויה להיראות כמו באיור 18.
לעומת זאת, שיעור רגולריזציה נמוך בדרך כלל יוצר היסטוגרמה שטוחה יותר, כמו שמוצג באיור 19.
הסיכון להתאמת יתר הוא הגבוה ביותר.
בחירת שיעור הרגולריזציה
שיעור הרגולריזציה האידיאלי יוצר מודל שמבצע הכללה טובה לנתונים חדשים שלא נראו קודם. לצערנו, הערך האידיאלי הזה תלוי בנתונים, ולכן צריך לבצע כוונון.
עצירה מוקדמת: חלופה לרגולריזציה מבוססת-מורכבות
עצירה מוקדמת היא שיטת רגולריזציה שלא כוללת חישוב של מורכבות. במקום זאת, עצירה מוקדמת פשוט אומרת לסיים את האימון לפני שהמודל מתכנס באופן מלא. לדוגמה, מפסיקים את האימון כשהעקומה של הפסד עבור קבוצת נתונים לתיקוף מתחילה לעלות (השיפוע הופך לחיובי).
למרות שבדרך כלל עצירה מוקדמת מגדילה את הפסד האימון, היא יכולה להקטין את הפסד הבדיקה.
עצירה מוקדמת היא שיטה מהירה, אבל לרוב לא אופטימלית, של רגולריזציה. סביר מאוד שהמודל שיתקבל לא יהיה טוב כמו מודל שעבר אימון יסודי על שיעור הרגולריזציה האידיאלי.
מציאת שיווי משקל בין קצב הלמידה לבין קצב הרגולריזציה
קצב הלמידה וקצב הרגולריזציה נוטים להזיז את המשקלים בכיוונים מנוגדים. קצב למידה גבוה לרוב מושך את המשקלים הרחק מאפס, ושיעור רגולריזציה גבוה דוחף את המשקלים לעבר אפס.
אם קצב הרגולריזציה גבוה ביחס לקצב הלמידה, המשקלים החלשים נוטים ליצור מודל שמפיק תחזיות לא מדויקות. לעומת זאת, אם קצב הלמידה גבוה ביחס לשיעור הרגולריזציה, המשקלים הגבוהים נוטים ליצור מודל עם התאמת יתר.
המטרה היא למצוא את שיווי המשקל בין קצב הלמידה לבין קצב הרגולריזציה. זה יכול להיות מאתגר. הבעיה הכי גדולה היא שאחרי שמגיעים ליתרה הרצויה, יכול להיות שבסופו של דבר צריך לשנות את קצב הלמידה. בנוסף, כשמשנים את קצב הלמידה, צריך למצוא שוב את קצב הרגולריזציה האידיאלי.