רגולריזציה של L2 הוא מדד פופולרי של הרגולריזציה, שמשתמש בנוסחה הבאה:
לדוגמה, הטבלה הבאה מציגה את החישוב של L2. הרגולריזציה של מודל עם שישה משקולות:
ערך | ערך ריבוע | |
---|---|---|
ש1 | 0.2 | 0.04 |
ש2 | 0.5- | 0.25 |
ש3 | 5.0 | 25.0 |
ש4 | 1.2- | 1.44 |
ש5 | 0.3 | 0.09 |
ש6 | 0.1- | 0.01 |
26.83 = סה"כ |
שימו לב שמשקלים קרובים לאפס לא משפיעים על הרגולריזציה של L2 הרבה, אבל למשקולות גדולות יכולה להיות השפעה עצומה. לדוגמה, ב החישוב הקודם:
- משקולת אחת (w3) תורמת כ-93% את המורכבות הכוללת.
- חמשת המשקולות האחרים תורמים יחד רק כ-7% את המורכבות הכוללת.
L2 הרגולריזציה מעודדת משקולות להגיע ל-0, אבל אף פעם לא דוחפת את המשקולות עד לאפס.
תרגילים: בדקו את ההבנה שלכם
שיעור ההתאמה (lambda)
כפי שצוין, האימון מנסה לצמצם שילוב מסוים של אובדן ומורכבות:
מפתחי מודלים מכוונים את ההשפעה הכוללת של המורכבות על אימון מודלים באמצעות הכפלת הערך בסקלר שנקרא regularization rate. התו היווני lambda מסמל בדרך כלל את שיעור הרגולריזציה.
כלומר, מפתחי מודלים שואפים לבצע את הפעולות הבאות:
שיעור רגולרי (regularization) גבוה:
- מחזק את השפעת הרגולריזציה ובכך מקטין את הסיכויים התאמת יתר.
- נוטה להפיק היסטוגרמה של משקולות המודל עם
מאפיינים:
- התפלגות נורמלית
- משקל ממוצע של 0.
שיעור רגיל (regularization) נמוך:
- מקטין את השפעת הרגולריזציה, ובכך מגדיל את הסיכויים התאמת יתר.
- נוטה להפיק היסטוגרמה של משקולות המודל בעל התפלגות שטוחה.
לדוגמה, ההיסטוגרמה של משקלי המודל עבור שיעור רגולרי גבוה עשוי להיראות כמו באיור 18.
לעומת זאת, שיעור נורמליזציה נמוך נוטה להניב היסטוגרמה שטוחה יותר, שמוצגת באיור 19.
בחירת שיעור הרגולריזציה
שיעור הרגולריזציה האידיאלי יוצר מודל שמתייחס היטב של נתונים חדשים שלא נצפו בעבר. למרבה הצער, הערך האידיאלי הוא תלוי נתונים, ולכן אתם צריכים לעשות של כוונון עדין.
עצירה מוקדמת: חלופה ל הרגולריזציה מבוססת-מורכבות
עצירה מוקדמת היא שיטת רגולריזציה שלא כוללת חישוב של המורכבות. במקום זאת, עצירה מוקדמת פירושה פשוט סיום האימון לפני המודל מתכנסת במלואה. לדוגמה, לסיים את האימון כשעקומת ההפסד כשקבוצת האימות מתחילה לעלות (השיפוע הופך לחיובי).
עצירה מוקדמת בדרך כלל מגדילה את אובדן האימון, אבל היא עלולה לרדת הפסדים בבדיקה.
עצירה מוקדמת היא שיטה מהירה, אבל לעיתים נדירות ביותר. סביר מאוד שהמודל שמתקבל לא יהיה טוב כמו המודל שעבר אימון לקביעת שיעור הרגולריזציה האידיאלי.
מציאת שיווי המשקל בין קצב הלמידה לשיעור הרגולריזציה
שיעור למידה וגם שיעור הרגולריזציה נוטות למשוך משקולות לקבלת מסלול. קצב למידה גבוה בדרך כלל מושך משקולות הרחק מאפס. שיעור רגולרי גבוה מושך את המשקולות לערך אפס.
אם שיעור הרגולריזציה גבוה ביחס לקצב הלמידה, המשקולות החלשות נוטות ליצור מודל שיוצר תחזיות גרועות. לעומת זאת, אם קצב הלמידה גבוה ביחס לתהליך הרגולריזציה. ולכן המשקולות החזקות נוטות ליצור מודל התאמת יתר.
המטרה היא למצוא את שיווי המשקל בין קצב הלמידה שיעור הרגולריזציה. זה יכול להיות מאתגר. והכי גרוע, ברגע שמוצאים את האיזון החמקמק הזה, אולי תצטרכו לשנות בסופו של דבר את קצב הלמידה. וכשמשנים את קצב הלמידה, צריך למצוא שוב את שיעור הרגולריזציה.