הערכה עם מוצר שהושק
ביערות אקראיים אין צורך במערך נתונים לאימות. רוב היערות האקראיים משתמשים בשיטה שנקראת out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) כדי להעריך את איכות המודל. הערכת OOB מתייחסת למערך האימון כאילו הוא היה בערכת הבדיקה של אימות צולב.
כפי שהוסבר קודם, כל עץ החלטות ביער אקראי מאומן בדרך כלל על כ-67% מדוגמאות האימון. לכן כל עץ החלטות לא רואה כ-33% מהדוגמאות לאימון. זהו הרעיון העיקרי של הערכת OOB:
- כדי להעריך את היער האקראי בערכת האימון.
- בכל דוגמה, כדאי להשתמש רק בעצי ההחלטות שלא ראו את הדוגמה במהלך האימון.
בטבלה הבאה מתוארת הערכת OOB של יער אקראי עם 3 עצי החלטה, מאומנים לפי 6 דוגמאות. (כן, זו אותה טבלה כמו בקטע 'באגים'). בטבלה אפשר לראות באיזה עץ החלטות נעשה שימוש ובאיזו דוגמה במהלך הערכת ה-OOB.
טבלה 7. הערכת OOB - המספרים מייצגים את מספר הפעמים שבהן נעשה שימוש בדוגמה נתונה לאימון במהלך אימון של הדוגמה הנתונה
דוגמאות לאימון | דוגמאות להערכת OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
מערך הנתונים המקורי | 1 | 1 | 1 | 1 | 1 | 1 | |
עץ החלטות 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
עץ החלטות 2 | 3 | 0 | 1 | 0 | 2 | 0 | מס' 2, 4 ו-6 |
עץ החלטות 3 | 0 | 1 | 3 | 1 | 0 | 1 | 1 ו-5 |
בדוגמה שמוצגת בטבלה 7, תחזיות ה-OOB לאימון לדוגמה 1 יחושבו באמצעות עץ ההחלטות מס' 3 (מכיוון שעצי ההחלטות מס' 1 ו-2 #השתמשו בדוגמה זו לאימון). בפועל, עם מערך נתונים בגודל סביר ועם כמה עצי החלטות, לכל הדוגמאות יש חיזוי OOB.
compute_oob_performances=True
.
הערכת ה-OOB יעילה גם לחישוב החשיבות המשתנה של תמורות במודלים אקראיים של יער. חשוב לזכור שבחשיבות משתנה, חשיבות המשתנה של התמורות מודדת את החשיבות של משתנה מסוים על ידי מדידת הירידה באיכות המודל כשמעלים אותו בצורה אקראית. הערך של "חשיבות משתנה תמורה OOB" הוא חשיבות של משתנה תמורה שמחושבת באמצעות הערכת ה-OOB.
compute_oob_variable_importances=True
, חשיבות המשתנה של OOB ביומני האימון זמינה ביומני האימון.