היחידה הזו עוסקת בנושאים הבאים:
- פרשנות של יערות אקראיים
- אימון של יערות אקראיים
- יתרונות וחסרונות של יערות אקראיים
פרשנות של יערות אקראיים
קשה יותר לפרש יערות אקראיים מאשר עצי החלטות. יערות אקראיים מכילים עצי החלטות שהודרכו באמצעות רעש אקראי. לכן קשה יותר להעריך את המבנה של עץ ההחלטות. עם זאת, יש כמה דרכים לפרש מודלים של יער אקראי.
אחת מהגישות לפרש יער אקראי היא פשוט לאמן ולפרש עץ החלטות באמצעות אלגוריתם CART. מאחר שגם מודלים של יער אקראי וגם מודלים של CART עוברים אימון באמצעות אותו אלגוריתם ליבה, הם 'חולקים את אותה תצוגה גלובלית' של מערך הנתונים. האפשרות הזו מתאימה למערכי נתונים פשוטים ולהבנת הפרשנות הכוללת של המודל.
מדדי החשיבות של המשתנים הם גישה נוספת טובה לשיפור היכולת לפענח את התוצאות. לדוגמה, בטבלה הבאה מוצג דירוג של מידת החשיבות של המשתנים של מאפיינים שונים במודל של יער אקראי שהוכשרה על מערך הנתונים של מפקד האוכלוסין (שנקרא גם Adult).
טבלה 8. מידת החשיבות של 14 תכונות שונות.
תכונה | סיכום הציונים | ירידה ממוצעת ברמת הדיוק | ירידה ממוצעת בערך AUC | עומק מינימלי ממוצע | מספר הצמתים | ירידה ממוצעת בערך AUC-PR | Num כשורש |
---|---|---|---|---|---|---|---|
קשר | 4203592.6 |
0.0045 |
0.0172 |
4.970 |
57040 |
0.0093 |
1095 |
capital_gain | 3363045.1 |
0.0199 |
0.0194 |
2.852 |
56468 |
0.0655 |
457 |
marital_status | 3128996.3 |
0.0018 |
0.0230 |
6.633 |
52391 |
0.0107 |
750 |
age | 2520658.8 |
0.0065 |
0.0074 |
4.969 |
356784 |
0.0033 |
200 |
חינוך | 2015905.4 |
0.0018 |
-0.0080 |
5.266 |
115751 |
-0.0129 |
205 |
מקצוע | 1939409.3 |
0.0063 |
-0.0040 |
5.017 |
221935 |
-0.0060 |
62 |
education_num | 1673648.4 |
0.0023 |
-0.0066 |
6.009 |
58303 |
-0.0080 |
197 |
fnlwgt | 1564189.0 |
-0.0002 |
-0.0038 |
9.969 |
431987 |
-0.0049 |
0 |
hours_per_week | 1333976.3 |
0.0030 |
0.0007 |
6.393 |
206526 |
-0.0031 |
20 |
capital_loss | 866863.8 |
0.0060 |
0.0020 |
8.076 |
58531 |
0.0118 |
1 |
workclass | 644208.4 |
0.0025 |
-0.0019 |
9.898 |
132196 |
-0.0023 |
0 |
native_country | 538841.2 |
0.0001 |
-0.0016 |
9.434 |
67211 |
-0.0058 |
0 |
סקס | 226049.3 |
0.0002 |
0.0002 |
10.911 |
37754 |
-0.0011 |
13 |
גזע | 168180.9 |
-0.0006 |
-0.0004 |
11.571 |
42262 |
-0.0031 |
0 |
כפי שרואים, להגדרות שונות של מידת החשיבות של המשתנים יש סולמות שונים, והן יכולות להוביל להבדלים בדירוג של המאפיינים.
רמת החשיבות של המשתנים שמגיעה ממבנה המודל (לדוגמה, sum score, mean min depth, num nodes ו-num as root בטבלה שלמעלה) מחושבת באופן דומה בעצים של החלטות (ראו הקטע 'Cart | Variable importance') וביערות אקראיים.
החשיבות של משתני המעריאציה (לדוגמה, ירידה ממוצעת ב-{accuracy, auc, pr-auc} בטבלה שלמעלה) הם מדדים בלתי תלויים במודל שאפשר לחשב בכל מודל למידת מכונה עם מערך נתונים לאימות. עם זאת, ב-Random Forest, במקום להשתמש במערך נתונים לאימות, אפשר לחשב את החשיבות של משתני המערוך באמצעות הערכה מחוץ לחבילה (OOB).
SHAP (SHapley Additive exPlanations) היא שיטה לא תלוית-מודל להסבר של תחזיות ספציפיות או פרשנות לפי מודל. (בספר Interpretable Machine Learning של Molnar מופיע מבוא לניתוח לא תלוי-מודל). בדרך כלל, חישוב SHAP הוא יקר, אבל אפשר להאיץ אותו באופן משמעותי ביערות החלטות, כך שזו דרך טובה לפרש יערות החלטות.
דוגמה לשימוש
בשיעור הקודם, הדרכה איך לאמן עץ החלטות של CART על קבוצת נתונים קטנה באמצעות קריאה ל-tfdf.keras.CartModel
. כדי לאמן מודל של יער אקראי, מחליפים את tfdf.keras.CartModel
ב-tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
יתרונות וחסרונות
בקטע הזה מופיע סיכום קצר של היתרונות והחסרונות של יערות אקראיים.
יתרונות:
- בדומה לעצי החלטה, יערות אקראיים תומכים באופן מקורי בתכונות מספריות וקטגוריות, ולרוב אין צורך בעיבוד מקדים של תכונות.
- מאחר שעצבי העץ של ההחלטות הם עצמאיים, אפשר לאמן יערות אקראיים במקביל. כתוצאה מכך, אפשר לאמן יערות אקראיים במהירות.
- ליערות אקראיים יש פרמטרים שמוגדרים כברירת מחדל, ולרוב הם מניב תוצאות מצוינות. לרוב, לשינוי הפרמטרים האלה יש השפעה קטנה על המודל.
חסרונות:
- מאחר שעציצי החלטות לא עוברים גיזום, הם יכולים להיות גדולים. מודלים עם יותר ממיליון צמתים הם נפוצים. לפעמים הגודל (ולכן מהירות ההסקה) של יער האקראי יכולים להוות בעיה.
- לא ניתן ללמד יערות אקראיים להשתמש שוב בייצוגים פנימיים. כל עץ החלטות (וכל ענף של כל עץ החלטות) צריך ללמוד מחדש את התבנית של מערך הנתונים. במערכי נתונים מסוימים, במיוחד במערכי נתונים לא טבלאיים (למשל תמונה או טקסט), הדבר מוביל לכך שהיערות האקראיים מניב תוצאות גרועות יותר מאשר שיטות אחרות.