בבעיות של רגרסיה כדאי להגדיר את השגיאה החתומה כהבדל בין החיזוי לתווית. עם זאת, בסוגים אחרים של בעיות, האסטרטגיה הזו מובילה לעיתים קרובות לתוצאות גרועות. כשמדובר בהגדלה הדרגתית, מומלץ להשתמש באחת מהאסטרטגיות הבאות:
- מגדירים פונקציית אובדן דומה לפונקציות האובדן שבהן משתמשים ברשתות נוירונים. לדוגמה, האנטרופיה (שנקראת גם אובדן יומן) לבעיית סיווג.
- מאמנים את המודל החלש לחזות את ההדרגתיות של האובדן בהתאם לפלט החזקה של המודל.
באופן רשמי, בהינתן פונקציית הפסד $L(y,p)$ שבה $y$ הוא תווית ו-$p$ הוא חיזוי, אז התגובה המדומה $z_i$ שמשמשת לאימון המודל החלש בשלב $i$ היא:
איפה:
- $F_i$ הוא החיזוי של המודל החזקה.
הדוגמה הקודמת הייתה בעיית רגרסיה: המטרה היא לחזות ערך מספרי. במקרה של רגרסיה, שגיאה בריבוע היא פונקציית אובדן נפוצה:
במקרה זה, ההדרגתיות היא:
במילים אחרות, ההדרגתיות היא השגיאה החתומה מהדוגמה שלנו עם גורם של 2. שימו לב שבגלל הכיווץ, אין חשיבות לגורמים קבועים. שימו לב שהקידומות הזו רלוונטית רק לבעיות רגרסיה עם הפסד של שגיאות בריבוע. בבעיות אחרות של למידה מונחית (כמו סיווג, דירוג, רגרסיה עם אובדן באחוזים), לא תהיה התאמה בין השיפוע לבין השגיאה החתומה.
אופטימיזציה של עלים ומבנה בעזרת שלב השיטה של ניוטון
השיטה של ניוטון היא שיטת אופטימיזציה כמו ירידה הדרגתית. עם זאת, בניגוד לירידה ההדרגתית שמשתמשת רק בשיפוע של הפונקציה כדי לבצע אופטימיזציה, השיטה של ניוטון משתמשת גם בהדרגה (נגזרת ראשונה) וגם בנגזרת השנייה של הפונקציה לאופטימיזציה.
זהו שלב בירידה הדרגתית:
ואת השיטה של Newton:
לחלופין, אפשר לשלב את השיטה של ניוטון באימון של עצים עם חיזוק הדרגתי בשתי דרכים:
- לאחר שעץ מאומנים, מחילים שלב של ניוטון על כל עלה ומשנים את הערך שלו. אין שינוי במבנה העץ, רק ערכי העלים משתנים.
- במהלך הצמיחה של עץ, התנאים נבחרים לפי ניקוד שכולל רכיב בנוסחת ניוטון. המבנה של העץ מושפע.
- YDF מחיל תמיד שלב ניוטון על העלה (אפשרות 1).
- אפשר להפעיל את אפשרות 2 עם
use_hessian_gain=True
.