רגולציה לפשטות: רגולציה L2

ניקח לדוגמה את עקומת ההכללה הבאה, שבה רואים את ההפסד של קבוצת האימון וגם של קבוצת האימות ביחס למספר החזרות האימון.

פונקציית האובדן של קבוצת האימון יורדת בהדרגה. לעומת זאת, פונקציית האובדן של קבוצת האימות נדחית, אבל מתחילה לעלות.

איור 1. אובדן על קבוצת אימון וקבוצת אימות.

באיור 1 מוצג מודל שבו אובדן האימון יורד בהדרגה, אבל בסופו של דבר אובדן האימות עולה. במילים אחרות, עקומת ההכללה הזו מראה שהמודל מבצע התאמה יתר לנתונים בקבוצת האימון. על ידי חיזוק ה-Ockham הפנימית, אולי נוכל למנוע התאמה יתר על ידי ענישה על מודלים מורכבים, שנקראים התאמה.

במילים אחרות, במקום לנסות למזער אובדן (הפחתה אמפירית של סיכון):

$$\text{minimize(Loss(Data|Model))}$$

עכשיו נצמצם את אובדן ומורכבות, שנקרא מזעור סיכון מבני:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

אלגוריתם האופטימיזציה של האימון פועל עכשיו כפונקציה של שני מונחים: המונח loss, שמודד את מידת ההתאמה של המודל לנתונים, ומונח הרגולקציה, שמודד את מורכבות המודל.

קורס הקריסה ללמידת מכונה מתמקד בשתי דרכים נפוצות (וקשורות קצת) לחשיבה על מורכבות המודלים:

  • מורכבות המודל כפונקציה של המשקלים של כל התכונות במודל.
  • מורכבות המודל כפונקציה של מספר התכונות הכולל עם משקולות שאינן אפס. (מודול מאוחר יותר עוסק בגישה הזו).

אם מורכבות המודל היא פונקציה של משקלים, משקל תכונה עם ערך מוחלט גבוה הוא מורכב יותר ממשקל תכונה עם ערך מוחלט נמוך.

אנחנו יכולים לכמת את המורכבות באמצעות הנוסחה הרגולטורית L2, שמגדירה את מונח הרגולציה כסכום הריבועים של כל משקלי התכונות:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

בנוסחה הזו, למשקלים הקרובים לאפס יש השפעה מועטה על מורכבות המודל, בעוד שלמשקלים חריגים יכולה להיות השפעה עצומה.

לדוגמה, מודל לינארי עם המשקולות הבאות:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

בתנאי הרגולטוריות של L2 הוא 26.915:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

אבל \(w_3\) (מודגש למעלה), בריבוע ערך של 25, מדובר כמעט בכל המורכבות. סכום הריבועים של כל חמשת המשקלים האחרים מוסיף רק 1.915 למונח הרגולרי L2.