ארגון של פשטות

ריצוף פירושו מתן עדיפות למורכבות של המודל כדי לצמצם את ההתאמה לעומס.

התאמה לפשטות

פונקציית האובדן של קבוצת האימון יורדת בהדרגה. לעומת זאת, פונקציית האובדן של קבוצת האימות נדחית, אבל מתחילה לעלות.
  • אנחנו רוצים להימנע ככל האפשר ממורכבות המודל.
  • ניתן ליישם את הרעיון הזה באופטימיזציה שאנחנו מבצעים בזמן האימון.
  • מזעור סיכונים אמפירי:
    • היעד מכיל שגיאת אימון נמוכה
    • $$ \text{minimize: } Loss(Data\;|\;Model) $$

  • אנחנו רוצים להימנע ככל האפשר ממורכבות המודל.
  • ניתן ליישם את הרעיון הזה באופטימיזציה שאנחנו מבצעים בזמן האימון.
  • מזעור סיכונים מבניים:
    • היעד מכיל שגיאת אימון נמוכה
    • תוך איזון מול המורכבות
    • $$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$

  • איך להגדיר סיבוכיות(מודל)?
  • איך להגדיר סיבוכיות(מודל)?
  • עדיף משקולות קטנות יותר
  • איך להגדיר סיבוכיות(מודל)?
  • עדיף משקולות קטנות יותר
  • התבססות על השיטה הזו אמורה להיות כרוכה בעלות
  • אפשר לקודד את הרעיון הזה באמצעות ריכוז L2 (שנקרא גם dge)
    • complexity(model) = סכום הריבועים של המשקולות
    • עונש משקולות גדולות מאוד
    • במודלים לינאריים: העדפה לשיפוע ישר יותר
    • קודם בייסיאני:
      • המשקולות צריכות להיות ממורכזות סביב אפס
      • צריך לחלק את המשקולות באופן רגיל

$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$

\(\text{Where:}\)

\(Loss\text{: Aims for low training error}\) \(\lambda\text{: Scalar value that controls how weights are balanced}\) \(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)