זהו סיכום קצר של מה שלמדתם בקורס:
- עץ החלטות הוא מודל שמורכב מאוסף של תנאים שמאורגנים בהיררכיה בצורת עץ. התנאים מתחלקים לקטגוריות שונות:
- תנאי משויך-ציר כרוך רק בתכונה אחת. תנאי עקיף כרוך בכמה תכונות.
- לתנאי בינארי יש שתי תוצאות אפשריות. לתנאי לא בינארי יש יותר משתי תוצאות אפשריות.
- אימון של עץ החלטות כרוך בחיפוש התנאי הטוב ביותר בכל צומת. התהליך splitter משתמש במדדים כמו שיפור המידע או Gini כדי לקבוע את התנאי הטוב ביותר.
- יער החלטות הוא מצב שמורכב מכמה עצי החלטות. התחזית של יער החלטות היא צבירת התחזיות של עצי ההחלטות שלו.
- יער אקראי הוא קבוצה של עצי החלטות שבהם כל עץ החלטות מאומן באמצעות רעש אקראי ספציפי.
- Bagging היא טכניקה שבה כל עץ החלטות ביער האקראי מאומן על קבוצת משנה שונה של דוגמאות.
- לא צריך מערך נתונים לאימות כדי להשתמש ביערות אקראיים. במקום זאת, רוב היערות האקראיים משתמשים בשיטה שנקראת out-of-bag-evaluation כדי להעריך את איכות המודל.
- עץ (החלטה) עם שיפור באמצעות שיפוע הוא סוג של יער החלטות שמתאמן באמצעות התאמות איטרטיביות מעצי החלטה של קלט. הערך shrinkage קובע את הקצב שבו עץ (החלטה) עם שיפור שיפוע לומד ואת מידת ההתאמה שלו.
קובצי עזר
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. פרק 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway