הנה סיכום קצר של מה שלמדתם בקורס:
- עץ החלטות הוא מודל שמורכב מאוסף של תנאים שמסודרים בהיררכיה בצורת עץ. התנאים מחולקים לקטגוריות שונות:
- תנאי ביישור לציר כולל רק תכונה אחת. תנאי אלכסוני כולל מספר תכונות.
- לתנאי בינארי יש שתי תוצאות אפשריות. לתנאי א-בינארי יש יותר משתי תוצאות אפשריות.
- כדי לאמן עץ החלטות צריך לחפש את התנאי הטוב ביותר בכל צומת. כדי לקבוע מה המצב הטוב ביותר, תרחיש הפיצול משתמש במדדים כמו רווח מידע או Gini.
- יער החלטות הוא מצב המורכב מכמה עצי החלטות. החיזוי של יער החלטות הוא הצטברות של התחזיות של עצי ההחלטה.
- יער אקראי הוא אוסף של עצי החלטה שבו כל עץ החלטות אומן בעזרת רעש אקראי ספציפי.
- Bagging היא שיטה שבה כל עץ החלטות ביער האקראי מאומן לפי קבוצת משנה שונה של דוגמאות.
- ביערות אקראיים אין צורך במערך נתונים לאימות. במקום זאת, ברוב היערות האקראיים נעשה שימוש בשיטה שנקראת out-of-bag-evaluation כדי להעריך את איכות המודל.
- עץ מוגדלת (החלטה) הוא סוג של יער החלטות שעבר הכשרה באמצעות התאמות איטרטיביות מעץ להחלטות שהתקבלו. ערך שנקרא shrinkage קובע את קצב הלמידה של עץ עם חיזוק הדרגתי (החלטה), ואת מידת ההתאמה שלו.
קובצי עזר
- Greedy Function Approximation: A Gradient Boosting, J. פרידמן.
- The Elements of Statistal Learning (אלמנטי למידה סטטיסטיים), Trevor Hastie. פרק 10.
- Generalized Boosted Model: מדריך לחבילת gbm, G. Ridgeway