הערכה מחוץ לחבילה
לא צריך מערך נתונים לאימות כדי להשתמש ביערות אקראיים. ברוב יערות ה-Random נעשה שימוש בשיטה שנקראת out-of-bag-evaluation (OOB evaluation) כדי להעריך את האיכות של המודל. בהערכה מחוץ למערך, קבוצת האימון נחשבת כחלק מקבוצת הבדיקה של אימות חוצה.
כפי שהוסבר קודם, בדרך כלל כל עץ החלטות ב-Random Forest מתאמן על כ-67% מהדוגמאות לאימון. לכן, כל עץ החלטות לא רואה כ-33% מהדוגמאות לאימון. הרעיון המרכזי של הערכה מחוץ לארגון הוא:
- כדי להעריך את יער האקראי בקבוצת האימון.
- לכל דוגמה, משתמשים רק בעצי ההחלטה שלא ראו את הדוגמה במהלך האימון.
בטבלה הבאה מוצגת הערכה מחוץ למערך (OOB) של יער אקראי עם 3 עצי החלטה שהוכשרו על 6 דוגמאות. (כן, זו אותה טבלה שמופיעה בקטע Bagging). בטבלה מוצג איזה עץ החלטות משמש באיזו דוגמה במהלך הערכה מחוץ לארגון.
טבלה 7. הערכה מחוץ ל-OB – המספרים מייצגים את מספר הפעמים שבהן דוגמה מסוימת לאימון משמשת במהלך האימון של הדוגמה הזו.
דוגמאות לאימון | דוגמאות להערכה מחוץ ל-OB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
מערך הנתונים המקורי | 1 | 1 | 1 | 1 | 1 | 1 | |
עץ החלטות 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
עץ החלטות 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2, #4 ו-#6 |
עץ החלטות 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 ו-#5 |
בדוגמה שמוצגת בטבלה 7, התחזיות מחוץ למערך (OOB) לדוגמה 1 של האימון יחושבו באמצעות עץ ההחלטות מס' 3 (כי עצי ההחלטות מס' 1 ו-2 השתמשו בדוגמה הזו לאימון). בפועל, במערך נתונים בגודל סביר ובכמה עצי החלטה, לכל הדוגמאות יש תחזית OOB.
compute_oob_performances=True
.
הערכה מחוץ למערך יעילה גם לחישוב החשיבות של משתני המבנה של המשתנים במודלים של יער אקראי. במאמר על משתני חשובות מוסבר שמדד החשיבות של משתנה Permutation משקף את החשיבות של המשתנה על ידי מדידת הירידה באיכות המודל כשהמשתנה הזה מעורבב. הערך 'חשיבות משתנה המבוסס על תמורות מחוץ למערך (OOB)' של יער אקראי הוא חשיבות משתנה המבוסס על תמורות שמחושב באמצעות הערכה מחוץ למערך (OOB).
compute_oob_variable_importances=True
.