צמצום אובדן: גישה חוזרת

במודול הקודם הוצג המושג של אובדן. כאן במודול הזה תלמדו איך מודל של למידת מכונה מפחית באופן איטרטיבי אובדן.

למידה חוזרת עשויה להזכיר לכם שזה משחק 'חם וקר' לילדים שמוצאים חפץ חבוי כמו אצבעון. במשחק הזה, "האובייקט המוסתר" הוא המודל הטוב ביותר האפשרי. אתם תצטרכו להתחיל בניחוש פרוע ("הערך של \(w_1\) הוא 0") ולהמתין שהמערכת תגיד לכם מהו האובדן. לאחר מכן, תנסו ניחוש אחר ("הערך של \(w_1\) הוא 0.5") ותראו מה הפסד. אהה, אתם הולכים ונעימים יותר. למעשה, אם תשחקו במשחק הזה כמו שצריך, בדרך כלל תתחמם יותר. הטריק האמיתי של המשחק הוא לנסות למצוא את המודל הטוב ביותר האפשרי באופן יעיל ככל האפשר.

באיור הבא מוצגת תהליך האיטרטיבי של ניסוי וטעייה, שבו האלגוריתמים של למידת המכונה משתמשים כדי לאמן מודל:

מחזור המעבר מתכונות ותוויות למודלים וחיזויים.

איור 1. גישה איטרטיבית לאימון מודל.

נשתמש באותה גישה חזרתית לאורך קורס הקריסה ללמידת מכונה ונפרט סיבוכים שונים, במיוחד באותו ענן סוער עם התווית "Model (Prediction Function)." אסטרטגיות של איטרציה נפוצות בלמידת מכונה, בעיקר כי הן מתרחבות בצורה טובה מאוד למערכי נתונים גדולים.

ה "מודל" לוקח תכונה אחת או יותר כקלט ומחזירה חיזוי אחד כפלט. כדי לפשט את הדברים, נסו להשתמש במודל שלוקח תכונה אחת (\(x_1\)) ומחזיר חיזוי אחד (\(y'\)):

$$ y' = b + w_1x_1 $$

מהם הערכים הראשוניים שעלינו להגדיר עבור \(b\) ועבור \(w_1\)? בבעיות של רגרסיה ליניארית, מתברר שערכי ההתחלה אינם חשובים. אפשר לבחור ערכים אקראיים, אבל במקום זאת נשתמש בערכים הטריוויאליים הבאים:

  • 0=\(b\)
  • 0=\(w_1\)

נניח שהערך של התכונה הראשונה הוא 10. הזנת ערך התכונה הזה בפונקציית החיזוי מניבה:

$$ y' = 0 + 0 \cdot 10 = 0 $$

החלק Compute Loss בתרשים הוא פונקציית losss שהמודל ישתמש בה. נניח שאנחנו משתמשים בפונקציית אובדן בריבוע. פונקציית האובדן מקבלת שני ערכי קלט:

  • \(y'\): החיזוי של המודל לתכונות x
  • \(y\): התווית הנכונה שתואמת לתכונות x.

סוף סוף הגענו לחלק 'עדכוני פרמטרים של Compute' בתרשים. כאן מערכת הלמידה החישובית בוחנת את הערך של פונקציית האובדן ויוצרת ערכים חדשים \(b\) וגם \(w_1\). בינתיים, נניח שהתיבה המסתורית הזו יוצרת ערכים חדשים, ולאחר מכן מערכת למידת המכונה מעריכה מחדש את כל התכונות ביחס לכל התוויות האלו, ויוצרת ערך חדש לפונקציית האובדן, שמובילה לערכי פרמטרים חדשים. והלמידה ממשיכה עד שהאלגוריתם מגלה את הפרמטרים עם האובדן הנמוך ביותר האפשרי. בדרך כלל חוזרים על התהליך עד שההפסד הכולל מפסיק להשתנות או לפחות משתנה לאט מאוד. במקרה כזה, אנחנו אומרים שהמודל מתאחד.