הפחתת אובדן

כדי לאמן מודל, אנחנו צריכים דרך טובה להפחית אובדן של מודל. גישה איטרטיבית היא שיטה נפוצה להפחתת אובדן, והיא קלה ויעילה כמו הליכה במורד גבעה.

צמצום אובדן

  • היפר-פרמטרים הם הגדרות התצורה שמשמשות לכוונון של אופן האימון של המודל.
  • הנגזרת של (y - y')2 ביחס למשקולות ולהטיות מאפשרת לנו לדעת איך הפסד בדוגמה נתונה משתנה
    • פשוט לחישוב ולהמרה
  • לכן אנחנו מבצעים שוב ושוב צעדים קטנים בכיוון כדי לצמצם אובדן
    • אנחנו מכנים את השלבים האלה צעדים הדרגתיים (אבל הם למעשה שלבים הדרגתיים שליליים)
    • השיטה הזו נקראת Gradient Descent
מחזור המעבר מתכונות ותוויות למודלים וחיזויים.
  • בבעיות קמורות, המשקולות יכולות להתחיל בכל מקום (למשל, כל ה-0)
    • קמורה: תחשבו על צורה של קערה
    • מינימום אחד
גרף בצורת קערה קמורה
  • בבעיות קמורות, המשקולות יכולות להתחיל בכל מקום (למשל, כל ה-0)
    • קמורה: תחשבו על צורה של קערה
    • מינימום אחד
  • חיזוי: לא נכון לגבי רשתות נוירונים
    • לא-קמורה: תחשבו על ארגז ביצים
    • יותר ממינימום אחד
    • תלות חזקה בערכים הראשוניים
גרף וגרף בצורת קערה קמורה עם מספר מינימום מקומי
  • ניתן לחשב את ההדרגתיות של כל קבוצת הנתונים בכל שלב, אך מסתבר שאין צורך
  • חישוב ההדרגתיות של דגימות נתונים קטנות פועל היטב
    • בכל שלב מקבלים דגימה אקראית חדשה
  • Stochastic Gradient Descent: דוגמה אחת בכל פעם
  • ירידה הדרגתית במיני-אצווה: קבוצות של 10-1,000
    • הפסדים ושברים הדרגתיים מחושבים בממוצע על פני האצווה