נושאים אחרים

היחידה הזו בוחנת את הנושאים הבאים:

  • מפרשים יערות אקראיים
  • אימון יערות אקראיים
  • יתרונות וחסרונות של יערות אקראיים

פירוש של יערות אקראיים

פירוש של יערות אקראיים מסובך יותר מאשר עצי החלטה. יערות אקראיים מכילים עצי החלטות שאומנו באמצעות רעש אקראי. לכן קשה יותר לקבל החלטות בנוגע למבנה של עץ ההחלטות. עם זאת, אנחנו יכולים לפרש נתונים אקראיים מודלים של יער בכמה דרכים.

אחת הגישות לפירוש של יער אקראי היא פשוט לאמן ולפרש עץ קבלת ההחלטות באמצעות האלגוריתם CART. כי גם יער אקראי וגם CART הם מאומנים באמצעות אותו אלגוריתם ליבה, הם "חולקים את אותה תצוגה גלובלית" של של הכיתובים. האפשרות הזאת מתאימה למערכי נתונים פשוטים ולהבין את לפרשנות הכוללת של המודל.

חשיבות של משתנים היא עוד פרשנות טובה . לדוגמה, הטבלה הבאה מדרגת את החשיבות של המשתנה למודל יער אקראי שאומן לפי מערך הנתונים של מפקד האוכלוסין (גם למבוגרים בלבד).

טבלה 8. חשיבות משתנה של 14 תכונות שונות.

תכונה ציון הסיכום ירידה ממוצעת ברמת הדיוק הירידה הממוצעת ב-AUC עומק דקות ממוצע מספר צמתים הירידה הממוצעת ב-PR-AUC מספור ברמה הבסיסית (root)
קשר

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

capital_gain

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

marital_status

3128996.3

0.0018

0.0230

6.633

52391

0.0107

750

age

2520658.8

0.0065

0.0074

4.969

356784

0.0033

200

חינוך

2015905.4

0.0018

0.0080-

5.266

115751

0.0129-

205

עיסוק

1939409.3

0.0063

0.0040-

5.017

221935

0.0060-

62

education_num

1673648.4

0.0023

0.0066-

6.009

58303

0.0080-

197

fnlwgt

1564189.0

0.0002-

0.0038-

9.969

431987

0.0049-

0

hours_per_week

1333976.3

0.0030

0.0007

6.393

206526

0.0031-

20

capital_loss

866863.8

0.0060

0.0020

8.076

58531

0.0118

1

שיעור עבודה

644208.4

0.0025

0.0019-

9.898

132196

0.0023-

0

native_country

538841.2

0.0001

0.0016-

9.434

67211

0.0058-

0

סקס

226049.3

0.0002

0.0002

10.911

37754

0.0011-

13

גזע

168180.9

0.0006-

0.0004-

11.571

42262

0.0031-

0

כמו שאפשר לראות, להגדרות שונות של חשיבות משתנה יש סולמות דירוג שונים ועלולות להוביל להבדלים בדירוג של התכונות.

חשיבות של משתנים שמגיעים ממבנה המודל (לדוגמה, סכום) הציון, העומק המינימלי, מספר הצמתים ומספר הצמתים בטבלה שלמעלה) הם מחושב באופן דומה לעצי ההחלטות (מידע נוסף זמין בקטע 'עגלת קניות | חשיבות משתנה') ויערות אקראיים.

חשיבות משתנה תמורה (לדוגמה, ממוצע ירידה ב-{accuracy, auc, pr-auc} בטבלה שלמעלה) הם מדדים שאפשר לחשב לפי מודל כל מודל למידת מכונה עם מערך נתונים לאימות. עם יער אקראי, אבל במקום להשתמש במערך נתונים לאימות, אפשר לחשב את הפרמוטציה בחשיבות משתנה עם הערכה של ההוצאה לאור.

SHAP (SHapley Additive exPlanations) היא שיטה אגנוסטית למודל כדי להסביר חיזויים בודדים או פרשנות מבוססת מודל. (ראו למידת מכונה שניתנת לפענוח מאת מולנר למבוא לפרשנות אגנוסטית.) SHAP הוא בדרך כלל יקר לחישוב, אבל יכול להיות זירז/ה משמעותית את תהליך קבלת ההחלטה ביערות, ולכן היא דרך טובה לפרש יערות החלטה.

דוגמה לשימוש

בשיעור הקודם, אימנו עץ החלטות של CART על מערך נתונים קטן באמצעות התקשרות אל tfdf.keras.CartModel. כדי לאמן מודל יער אקראי, פשוט מחליפים את tfdf.keras.CartModel במחרוזת tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

יתרונות וחסרונות

המקטע הזה כולל סיכום קצר של היתרונות והחסרונות של יערות אקראיים.

יתרונות:

  • בדומה לעצי החלטות, יערות אקראיים תומכים במספרים מקומיים תכונות קטגוריות ולרוב לא מצריכות עיבוד מראש של תכונות.
  • מכיוון שעצי ההחלטות הם עצמאיים, ניתן לאמן יערות אקראיים מקביל. כתוצאה מכך, ניתן לאמן יערות אקראיים במהירות.
  • ליערות אקראיים יש פרמטרים שמוגדרים כברירת מחדל שבמקרים רבים מניבים תוצאות מעולות. כוונון לפרמטרים האלה יש השפעה מועטה על המודל.

חסרונות:

  • עצי החלטות לא גוזמים, ולכן הם יכולים להיות גדולים. דגמים עם אפשרויות נוספות ממיליון צמתים נפוצים. הגודל (ולכן מהירות ההסקה) של יער אקראי יכול לפעמים להוות בעיה.
  • יערות אקראיים לא יכולים ללמוד ולעשות שימוש חוזר בייצוגים פנימיים. כל אחד עץ ההחלטות (וכל הסתעפות של עץ ההחלטות) חייב ללמוד מחדש את של מערך הנתונים. במערכי נתונים מסוימים, ובמיוחד במערך נתונים שאינו טבלאי (למשל תמונה, טקסט), זה מוביל ליערות אקראיים לתוצאות גרועות יותר מאשר בשיטות אחרות.