כדי לאמן מודל, אנחנו צריכים דרך טובה להפחית אובדן של מודל. גישה איטרטיבית היא שיטה נפוצה להפחתת אובדן, והיא קלה ויעילה כמו הליכה במורד גבעה.
צמצום אובדן
איך אנחנו מפחיתים את מקרי ההפסד?
- היפר-פרמטרים הם הגדרות התצורה שמשמשות לכוונון של אופן האימון של המודל.
- הנגזרת של (y - y')2 ביחס למשקולות ולהטיות מאפשרת לנו לדעת איך הפסד בדוגמה נתונה משתנה
- פשוט לחישוב ולהמרה
- לכן אנחנו מבצעים שוב ושוב צעדים קטנים בכיוון כדי לצמצם אובדן
- אנחנו מכנים את השלבים האלה צעדים הדרגתיים (אבל הם למעשה שלבים הדרגתיים שליליים)
- השיטה הזו נקראת Gradient Descent
תרשים בלוק של ירידה הדרגתית
- נסו את תרגיל בירידה הדרגתית
- בסיום התרגיל, לחץ על 'הפעלה' • כדי להמשיך
אתחול המשקל
- בבעיות קמורות, המשקולות יכולות להתחיל בכל מקום (למשל, כל ה-0)
- קמורה: תחשבו על צורה של קערה
- מינימום אחד
אתחול המשקל
- בבעיות קמורות, המשקולות יכולות להתחיל בכל מקום (למשל, כל ה-0)
- קמורה: תחשבו על צורה של קערה
- מינימום אחד
- חיזוי: לא נכון לגבי רשתות נוירונים
- לא-קמורה: תחשבו על ארגז ביצים
- יותר ממינימום אחד
- תלות חזקה בערכים הראשוניים
SGD וירידה הדרגתית בגוון מיני-אצווה
- ניתן לחשב את ההדרגתיות של כל קבוצת הנתונים בכל שלב, אך מסתבר שאין צורך
- חישוב ההדרגתיות של דגימות נתונים קטנות פועל היטב
- בכל שלב מקבלים דגימה אקראית חדשה
- Stochastic Gradient Descent: דוגמה אחת בכל פעם
- ירידה הדרגתית במיני-אצווה: קבוצות של 10-1,000
- הפסדים ושברים הדרגתיים מחושבים בממוצע על פני האצווה