נושאים אחרים

היחידה הזו עוסקת בנושאים הבאים:

  • פרשנות של יערות אקראיים
  • אימון של יערות אקראיים
  • יתרונות וחסרונות של יערות אקראיים

פרשנות של יערות אקראיים

קשה יותר לפרש יערות אקראיים מאשר עצי החלטות. יערות אקראיים מכילים עצי החלטות שהודרכו באמצעות רעש אקראי. לכן קשה יותר להעריך את המבנה של עץ ההחלטות. עם זאת, יש כמה דרכים לפרש מודלים של יער אקראי.

אחת מהגישות לפרש יער אקראי היא פשוט לאמן ולפרש עץ החלטות באמצעות אלגוריתם CART. מאחר שגם מודלים של יער אקראי וגם מודלים של CART עוברים אימון באמצעות אותו אלגוריתם ליבה, הם 'חולקים את אותה תצוגה גלובלית' של מערך הנתונים. האפשרות הזו מתאימה למערכי נתונים פשוטים ולהבנת הפרשנות הכוללת של המודל.

מדדי החשיבות של המשתנים הם גישה נוספת טובה לשיפור היכולת לפענח את התוצאות. לדוגמה, בטבלה הבאה מוצג דירוג של מידת החשיבות של המשתנים של מאפיינים שונים במודל של יער אקראי שהוכשרה על מערך הנתונים של מפקד האוכלוסין (שנקרא גם Adult).

טבלה 8. מידת החשיבות של 14 תכונות שונות.

תכונה סיכום הציונים ירידה ממוצעת ברמת הדיוק ירידה ממוצעת בערך AUC עומק מינימלי ממוצע מספר הצמתים ירידה ממוצעת בערך AUC-PR Num כשורש
קשר

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

capital_gain

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

marital_status

3128996.3

0.0018

0.0230

6.633

52391

0.0107

750

age

2520658.8

0.0065

0.0074

4.969

356784

0.0033

200

חינוך

2015905.4

0.0018

-0.0080

5.266

115751

-0.0129

205

מקצוע

1939409.3

0.0063

‎-0.0040

5.017

221935

‎-0.0060

62

education_num

1673648.4

0.0023

‎-0.0066

6.009

58303

-0.0080

197

fnlwgt

1564189.0

‎-0.0002

‎-0.0038

9.969

431987

‎-0.0049

0

hours_per_week

1333976.3

0.0030

0.0007

6.393

206526

‎-0.0031

20

capital_loss

866863.8

0.0060

0.0020

8.076

58531

0.0118

1

workclass

644208.4

0.0025

‎-0.0019

9.898

132196

‎-0.0023

0

native_country

538841.2

0.0001

‎-0.0016

9.434

67211

‎-0.0058

0

סקס

226049.3

0.0002

0.0002

10.911

37754

‎-0.0011

13

גזע

168180.9

‎-0.0006

‎-0.0004

11.571

42262

‎-0.0031

0

כפי שרואים, להגדרות שונות של מידת החשיבות של המשתנים יש סולמות שונים, והן יכולות להוביל להבדלים בדירוג של המאפיינים.

רמת החשיבות של המשתנים שמגיעה ממבנה המודל (לדוגמה, sum score, ‏ mean min depth, ‏ num nodes ו-num as root בטבלה שלמעלה) מחושבת באופן דומה בעצים של החלטות (ראו הקטע 'Cart | Variable importance') וביערות אקראיים.

החשיבות של משתני המעריאציה (לדוגמה, ירידה ממוצעת ב-{accuracy, auc, pr-auc} בטבלה שלמעלה) הם מדדים בלתי תלויים במודל שאפשר לחשב בכל מודל למידת מכונה עם מערך נתונים לאימות. עם זאת, ב-Random Forest, במקום להשתמש במערך נתונים לאימות, אפשר לחשב את החשיבות של משתני המערוך באמצעות הערכה מחוץ לחבילה (OOB).

SHAP (SHapley Additive exPlanations) היא שיטה לא תלוית-מודל להסבר של תחזיות ספציפיות או פרשנות לפי מודל. (בספר Interpretable Machine Learning של Molnar מופיע מבוא לניתוח לא תלוי-מודל). בדרך כלל, חישוב SHAP הוא יקר, אבל אפשר להאיץ אותו באופן משמעותי ביערות החלטות, כך שזו דרך טובה לפרש יערות החלטות.

דוגמה לשימוש

בשיעור הקודם, הדרכה איך לאמן עץ החלטות של CART על קבוצת נתונים קטנה באמצעות קריאה ל-tfdf.keras.CartModel. כדי לאמן מודל של יער אקראי, מחליפים את tfdf.keras.CartModel ב-tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

יתרונות וחסרונות

בקטע הזה מופיע סיכום קצר של היתרונות והחסרונות של יערות אקראיים.

יתרונות:

  • בדומה לעצי החלטה, יערות אקראיים תומכים באופן מקורי בתכונות מספריות וקטגוריות, ולרוב אין צורך בעיבוד מקדים של תכונות.
  • מאחר שעצבי העץ של ההחלטות הם עצמאיים, אפשר לאמן יערות אקראיים במקביל. כתוצאה מכך, אפשר לאמן יערות אקראיים במהירות.
  • ליערות אקראיים יש פרמטרים שמוגדרים כברירת מחדל, ולרוב הם מניב תוצאות מצוינות. לרוב, לשינוי הפרמטרים האלה יש השפעה קטנה על המודל.

חסרונות:

  • מאחר שעציצי החלטות לא עוברים גיזום, הם יכולים להיות גדולים. מודלים עם יותר ממיליון צמתים הם נפוצים. לפעמים הגודל (ולכן מהירות ההסקה) של יער האקראי יכולים להוות בעיה.
  • לא ניתן ללמד יערות אקראיים להשתמש שוב בייצוגים פנימיים. כל עץ החלטות (וכל ענף של כל עץ החלטות) צריך ללמוד מחדש את התבנית של מערך הנתונים. במערכי נתונים מסוימים, במיוחד במערכי נתונים לא טבלאיים (למשל תמונה או טקסט), הדבר מוביל לכך שהיערות האקראיים מניב תוצאות גרועות יותר מאשר שיטות אחרות.