בתרשים הגישה האיטרטיבית (איור 1) מופיעה תיבה ירוקה עם גלגול ביד, שנקראת 'עדכוני פרמטרים של Compute'. עכשיו נחליף את אבק הפיות האלגוריתמי במשהו משמעותי יותר.
נניח שיש לנו את הזמן ואת משאבי המחשוב לחשב את ההפסד של כל הערכים האפשריים של \(w_1\). בסוג של בעיות הרגרסיה שבדקנו, העלילה המתקבלת של הפסד לעומת \(w_1\) תהיה תמיד קמורה. במילים אחרות, העלילה תמיד תהיה בצורת קערה, בערך כך:
איור 2. בעיות רגרסיה יוצרות ירידה קמורה לעומת תרשים משקל.
לבעיות קמורות יש רק מינימום אחד. כלומר, רק מקום אחד שבו השיפוע הוא בדיוק 0. המינימום הזה הוא המקום שבו פונקציית האובדן מתכנסת.
החישוב של פונקציית האובדן לכל ערך של \(w_1\) בכל קבוצת הנתונים לא יהיה יעיל כדרך למצוא את נקודת ההתכנסות. נבחן מנגנון טוב יותר, פופולרי מאוד בלמידת מכונה, שנקרא ירידה הדרגתית.
השלב הראשון בירידה הדרגתית הוא בחירת ערך התחלה (נקודת התחלה) עבור \(w_1\). לנקודת ההתחלה אין חשיבות רבה, ולכן אלגוריתמים רבים מגדירים את הערך \(w_1\) כ-0 או בוחרים בערך אקראי. האיור הבא מראה שבחרנו נקודת התחלה קצת יותר מ-0:
איור 3. נקודת התחלה לירידה הדרגתית.
לאחר מכן, האלגוריתם של הירידה ההדרגתית מחשב את השיפוע של עקומת האובדן בנקודת ההתחלה. כאן באיור 3, השיפוע של האובדן שווה לנגזרת (השיפוע) של העקומה, ומציין איזה דרך "חם יותר" או "קר". כשיש כמה משקולות, הדרגה היא וקטור של נגזרות חלקיות ביחס למשקולות.
שימו לב שהדרגה היא וקטור, ולכן היא כוללת את שני המאפיינים הבאים:
- מסלול
- גדול
ההדרגה תמיד מצביעה בכיוון של העלייה התלולה ביותר בפונקציית הפסד. האלגוריתם של הירידה ההדרגתית פועל צעד אחד בכיוון של השיפוע השלילי כדי להפחית את הירידה במהירות האפשרית.
איור 4. ירידה הדרגתית מבוססת על הדרגה שלילית.
כדי לקבוע את הנקודה הבאה בעקומה של פונקציית האובדן, האלגוריתם של הירידה ההדרגתית מוסיף שבר מסוים מגודל השיפוע לנקודת ההתחלה, כפי שמוצג באיור הבא:
איור 5. שלב הדרגתי מעביר אותנו לנקודה הבאה בעקומת האובדן.
הירידה ההדרגתית חוזרת על התהליך הזה ומתקרבת למינימום.