היחידה הזו בוחנת את הנושאים הבאים:
- מפרשים יערות אקראיים
- אימון יערות אקראיים
- יתרונות וחסרונות של יערות אקראיים
פירוש של יערות אקראיים
פירוש של יערות אקראיים מסובך יותר מאשר עצי החלטה. יערות אקראיים מכילים עצי החלטות שאומנו באמצעות רעש אקראי. לכן קשה יותר לקבל החלטות בנוגע למבנה של עץ ההחלטות. עם זאת, אנחנו יכולים לפרש נתונים אקראיים מודלים של יער בכמה דרכים.
אחת הגישות לפירוש של יער אקראי היא פשוט לאמן ולפרש עץ קבלת ההחלטות באמצעות האלגוריתם CART. כי גם יער אקראי וגם CART הם מאומנים באמצעות אותו אלגוריתם ליבה, הם "חולקים את אותה תצוגה גלובלית" של של הכיתובים. האפשרות הזאת מתאימה למערכי נתונים פשוטים ולהבין את לפרשנות הכוללת של המודל.
חשיבות של משתנים היא עוד פרשנות טובה . לדוגמה, הטבלה הבאה מדרגת את החשיבות של המשתנה למודל יער אקראי שאומן לפי מערך הנתונים של מפקד האוכלוסין (גם למבוגרים בלבד).
טבלה 8. חשיבות משתנה של 14 תכונות שונות.
תכונה | ציון הסיכום | ירידה ממוצעת ברמת הדיוק | הירידה הממוצעת ב-AUC | עומק דקות ממוצע | מספר צמתים | הירידה הממוצעת ב-PR-AUC | מספור ברמה הבסיסית (root) |
---|---|---|---|---|---|---|---|
קשר | 4203592.6 |
0.0045 |
0.0172 |
4.970 |
57040 |
0.0093 |
1095 |
capital_gain | 3363045.1 |
0.0199 |
0.0194 |
2.852 |
56468 |
0.0655 |
457 |
marital_status | 3128996.3 |
0.0018 |
0.0230 |
6.633 |
52391 |
0.0107 |
750 |
age | 2520658.8 |
0.0065 |
0.0074 |
4.969 |
356784 |
0.0033 |
200 |
חינוך | 2015905.4 |
0.0018 |
0.0080- |
5.266 |
115751 |
0.0129- |
205 |
עיסוק | 1939409.3 |
0.0063 |
0.0040- |
5.017 |
221935 |
0.0060- |
62 |
education_num | 1673648.4 |
0.0023 |
0.0066- |
6.009 |
58303 |
0.0080- |
197 |
fnlwgt | 1564189.0 |
0.0002- |
0.0038- |
9.969 |
431987 |
0.0049- |
0 |
hours_per_week | 1333976.3 |
0.0030 |
0.0007 |
6.393 |
206526 |
0.0031- |
20 |
capital_loss | 866863.8 |
0.0060 |
0.0020 |
8.076 |
58531 |
0.0118 |
1 |
שיעור עבודה | 644208.4 |
0.0025 |
0.0019- |
9.898 |
132196 |
0.0023- |
0 |
native_country | 538841.2 |
0.0001 |
0.0016- |
9.434 |
67211 |
0.0058- |
0 |
סקס | 226049.3 |
0.0002 |
0.0002 |
10.911 |
37754 |
0.0011- |
13 |
גזע | 168180.9 |
0.0006- |
0.0004- |
11.571 |
42262 |
0.0031- |
0 |
כמו שאפשר לראות, להגדרות שונות של חשיבות משתנה יש סולמות דירוג שונים ועלולות להוביל להבדלים בדירוג של התכונות.
חשיבות של משתנים שמגיעים ממבנה המודל (לדוגמה, סכום) הציון, העומק המינימלי, מספר הצמתים ומספר הצמתים בטבלה שלמעלה) הם מחושב באופן דומה לעצי ההחלטות (מידע נוסף זמין בקטע 'עגלת קניות | חשיבות משתנה') ויערות אקראיים.
חשיבות משתנה תמורה (לדוגמה, ממוצע ירידה ב-{accuracy, auc, pr-auc} בטבלה שלמעלה) הם מדדים שאפשר לחשב לפי מודל כל מודל למידת מכונה עם מערך נתונים לאימות. עם יער אקראי, אבל במקום להשתמש במערך נתונים לאימות, אפשר לחשב את הפרמוטציה בחשיבות משתנה עם הערכה של ההוצאה לאור.
SHAP (SHapley Additive exPlanations) היא שיטה אגנוסטית למודל כדי להסביר חיזויים בודדים או פרשנות מבוססת מודל. (ראו למידת מכונה שניתנת לפענוח מאת מולנר למבוא לפרשנות אגנוסטית.) SHAP הוא בדרך כלל יקר לחישוב, אבל יכול להיות זירז/ה משמעותית את תהליך קבלת ההחלטה ביערות, ולכן היא דרך טובה לפרש יערות החלטה.
דוגמה לשימוש
בשיעור הקודם, אימנו עץ החלטות של CART על מערך נתונים קטן
באמצעות התקשרות אל tfdf.keras.CartModel
. כדי לאמן מודל יער אקראי,
פשוט מחליפים את tfdf.keras.CartModel
במחרוזת tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
יתרונות וחסרונות
המקטע הזה כולל סיכום קצר של היתרונות והחסרונות של יערות אקראיים.
יתרונות:
- בדומה לעצי החלטות, יערות אקראיים תומכים במספרים מקומיים תכונות קטגוריות ולרוב לא מצריכות עיבוד מראש של תכונות.
- מכיוון שעצי ההחלטות הם עצמאיים, ניתן לאמן יערות אקראיים מקביל. כתוצאה מכך, ניתן לאמן יערות אקראיים במהירות.
- ליערות אקראיים יש פרמטרים שמוגדרים כברירת מחדל שבמקרים רבים מניבים תוצאות מעולות. כוונון לפרמטרים האלה יש השפעה מועטה על המודל.
חסרונות:
- עצי החלטות לא גוזמים, ולכן הם יכולים להיות גדולים. דגמים עם אפשרויות נוספות ממיליון צמתים נפוצים. הגודל (ולכן מהירות ההסקה) של יער אקראי יכול לפעמים להוות בעיה.
- יערות אקראיים לא יכולים ללמוד ולעשות שימוש חוזר בייצוגים פנימיים. כל אחד עץ ההחלטות (וכל הסתעפות של עץ ההחלטות) חייב ללמוד מחדש את של מערך הנתונים. במערכי נתונים מסוימים, ובמיוחד במערך נתונים שאינו טבלאי (למשל תמונה, טקסט), זה מוביל ליערות אקראיים לתוצאות גרועות יותר מאשר בשיטות אחרות.