ריצוף פירושו מתן עדיפות למורכבות של המודל כדי לצמצם את ההתאמה לעומס.
התאמה לפשטות
עקומת הכללה
ענישה על מורכבות המודל
- אנחנו רוצים להימנע ככל האפשר ממורכבות המודל.
- ניתן ליישם את הרעיון הזה באופטימיזציה שאנחנו מבצעים בזמן האימון.
- מזעור סיכונים אמפירי:
- היעד מכיל שגיאת אימון נמוכה
$$ \text{minimize: } Loss(Data\;|\;Model) $$
ענישה על מורכבות המודל
- אנחנו רוצים להימנע ככל האפשר ממורכבות המודל.
- ניתן ליישם את הרעיון הזה באופטימיזציה שאנחנו מבצעים בזמן האימון.
- מזעור סיכונים מבניים:
- היעד מכיל שגיאת אימון נמוכה
- תוך איזון מול המורכבות
$$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$
רגולציה
- איך להגדיר סיבוכיות(מודל)?
רגולציה
- איך להגדיר סיבוכיות(מודל)?
- עדיף משקולות קטנות יותר
רגולציה
- איך להגדיר סיבוכיות(מודל)?
- עדיף משקולות קטנות יותר
- התבססות על השיטה הזו אמורה להיות כרוכה בעלות
- אפשר לקודד את הרעיון הזה באמצעות ריכוז L2 (שנקרא גם dge)
- complexity(model) = סכום הריבועים של המשקולות
- עונש משקולות גדולות מאוד
- במודלים לינאריים: העדפה לשיפוע ישר יותר
- קודם בייסיאני:
- המשקולות צריכות להיות ממורכזות סביב אפס
- צריך לחלק את המשקולות באופן רגיל
פונקציית אובדן עם ריצוף L2
$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$
\(\text{Where:}\)
\(Loss\text{: Aims for low training error}\)
\(\lambda\text{: Scalar value that controls how weights are balanced}\)
\(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)