יחידה זו בודקת את הנושאים הבאים:
- פירוש יערות אקראיים
- אימון יערות אקראיים
- יתרונות וחסרונות של יערות אקראיים
פירוש של יערות אקראיים
יערות אקראיים הם מורכבים יותר וקשה לפרש אותם כעצי החלטות. יערות אקראיים מכילים עצי החלטות שהכשלו ברעש אקראי. לכן קשה יותר לקבל החלטות בנוגע למבנה של החלטות שהתקבלו. עם זאת, אנחנו יכולים לפרש מודלים אקראיים ביער בכמה דרכים.
אחת הגישות לפירוש יער אקראי היא פשוט אימון ופרשנות של עץ החלטות באמצעות האלגוריתם של CART. מכיוון שגם היער האקראי וגם ה-CART מאומנים באמצעות אותו אלגוריתם ליבה, הם משתפים את אותה תצוגה גלובלית של מערך הנתונים. האפשרות הזו מתאימה למערכי נתונים פשוטים ולהבנת הפרשנות הכללית של המודל.
חשיבות משתנה היא גישה טובה נוספת לפירוש. לדוגמה, בטבלה הבאה מתוארת חשיבות המשתנים של תכונות שונות למודל יער אקראי שעבר הכשרה על מערך הנתונים של מפקד האוכלוסין (שנקרא גם למבוגרים בלבד).
טבלה 8. חשיבות משתנה של 14 תכונות שונות.
תכונה | ניקוד מינימלי | ירידה ממוצעת ברמת הדיוק | ירידה ממוצעת ב-AUC | עומק ממוצע | צמתים מספריים | ירידה ממוצעת ב-PR-AUC | Num בתור השורש |
---|---|---|---|---|---|---|---|
קשר | 4203592.6 |
0.0045 |
0.0172 |
4.970 |
57040 |
0.0093 |
1095 |
רווח הון | 3363045.1 |
0.0199 |
0.0194 |
2,852 |
56468 |
0.0655 |
457 |
marital_status | 3128996.3 |
0.0018 |
0.0230 |
6.633 |
52391 |
0.0107 |
750 |
age | 2,520,658.8 |
0.0065 |
0.0074 |
4.969 |
356784 |
0.0033 |
200 |
חינוך | 2015905.4 |
0.0018 |
-0.0080 |
5.266 |
115751 |
-0.0129 |
205 |
עיסוק | 1939409.3 |
0.0063 |
-0.0040 |
5.017 |
221935 |
-0.0060 |
62 |
Education_num | 1673648.4 |
0.0023 |
-0.0066 |
6.009 |
58303 |
-0.0080 |
197 |
fnlwgt | 156,4189.0 |
-0.0002 |
-0.0038 |
9.969 |
431987 |
-0.0049 |
0 |
שעות_בשבוע | 1333976.3 |
0.0030 |
0.0007 |
6.393 |
206526 |
-0.0031 |
20 |
הון סיכון | 866863.8 |
0.0060 |
0.0020 |
8.076 |
58531 |
0.0118 |
1 |
מחלקה | 644,208.4 |
0.0025 |
-0.0019 |
9.898 |
132196 |
-0.0023 |
0 |
מדינה ילידית | 538841.2 |
0.0001 |
-0.0016 |
9.434 |
67211 |
-0.0058 |
0 |
מין | 226049.3 |
0.0002 |
0.0002 |
10.911 |
37754 |
-0.0011 |
13 |
גזע | 168,180.9 |
-0.0006 |
-0.0004 |
11.571 |
42262 |
-0.0031 |
0 |
כפי שאתם רואים, להגדרות שונות של חשיבות משתנה יש קנה מידה שונה, והן עלולות להוביל להבדלים בדירוג התכונות.
חשיבות משתנה מגיעה ממבנה המודל (למשל, סכום כולל, עומק מינימלי, צומתי num ו-root בטבלה שלמעלה) מחושבים באופן דומה עבור עצי החלטת (ראו
מידת החשיבות של משתנה תמורה (לדוגמה, ירידה ממוצעת ב-{accuracy, auc, pr-auc} בטבלה שלמעלה) היא מדדים אגנוסטיים שניתן לחשב בכל מודל למידה חישובית באמצעות מערך נתונים לאימות. עם זאת, עם יער אקראי, במקום להשתמש במערך נתונים לאימות, אתם יכולים לחשב את החשיבות של שילובים משתנים באמצעות הערכה שאינה כוללת כל הכבודה.
SHAP (הסברים נוספים על המודל של Shappley) הוא שיטה אגנוסטית לאימות הסברים בודדים או לפרשנות המודל. (תוכלו להיעזר בלמידה חישובית עם פרשנות על ידי מולנר למבוא לפרשנות אגנוסטית.) בדרך כלל, החישוב של SHAP יקר, אבל אפשר להאיץ משמעותית את השיטה של קבלת ההחלטות, כך שזוהי דרך טובה לפרש את יערות ההחלטות.
דוגמה לשימוש
בשיעור הקודם, בדקנו את עץ ההחלטות של CART על מערך נתונים קטן, והתקשרנו למספר tfdf.keras.CartModel
. כדי לאמן מודל אקראי ביער, צריך פשוט להחליף את tfdf.keras.CartModel
ב-tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
טיעוני בעד ונגד
סעיף זה כולל סיכום קצר של היתרונות והחסרונות של יערות אקראיים.
יתרונות:
- כמו עצי החלטות, יערות אקראיים תומכים בתכונות מקוריות ומספרות, ולרוב לא צריך לעבד אותם מראש.
- מאחר שעצי ההחלטה עצמאיים, ניתן לאמן יערות אקראיים במקביל. כתוצאה מכך, תוכלו לאמן יערות אקראיים במהירות.
- יערות אקראיים כוללים פרמטרים של ברירת מחדל שמניבים לעיתים קרובות תוצאות מעולות. כוונון הפרמטרים האלה משפיע בדרך כלל על המודל.
חסרונות:
- מכיוון שעציצים לא קוצצים, הם יכולים להיות גדולים. מודלים עם יותר ממיליון צמתים נפוצים. הגודל (ו לכן מהירות ההסקה) של היער האקראי עשוי להיות לפעמים בעיה.
- יערות אקראיים אינם יכולים ללמוד שימושים פנימיים בייצוגים פנימיים ולעשות בהם שימוש חוזר. כל עץ נחוץ (וכל זרוע של כל עץ) חייב ללמוד מחדש את דפוס מערך הנתונים. במערכי נתונים מסוימים, במיוחד במערך נתונים שאינו טבלאי (למשל תמונה, טקסט), נוצרת יערות אקראיים לתוצאות גרועות יותר משיטות אחרות.