נושאים אחרים

יחידה זו בודקת את הנושאים הבאים:

  • פירוש יערות אקראיים
  • אימון יערות אקראיים
  • יתרונות וחסרונות של יערות אקראיים

פירוש של יערות אקראיים

יערות אקראיים הם מורכבים יותר וקשה לפרש אותם כעצי החלטות. יערות אקראיים מכילים עצי החלטות שהכשלו ברעש אקראי. לכן קשה יותר לקבל החלטות בנוגע למבנה של החלטות שהתקבלו. עם זאת, אנחנו יכולים לפרש מודלים אקראיים ביער בכמה דרכים.

אחת הגישות לפירוש יער אקראי היא פשוט אימון ופרשנות של עץ החלטות באמצעות האלגוריתם של CART. מכיוון שגם היער האקראי וגם ה-CART מאומנים באמצעות אותו אלגוריתם ליבה, הם משתפים את אותה תצוגה גלובלית של מערך הנתונים. האפשרות הזו מתאימה למערכי נתונים פשוטים ולהבנת הפרשנות הכללית של המודל.

חשיבות משתנה היא גישה טובה נוספת לפירוש. לדוגמה, בטבלה הבאה מתוארת חשיבות המשתנים של תכונות שונות למודל יער אקראי שעבר הכשרה על מערך הנתונים של מפקד האוכלוסין (שנקרא גם למבוגרים בלבד).

טבלה 8. חשיבות משתנה של 14 תכונות שונות.

תכונה ניקוד מינימלי ירידה ממוצעת ברמת הדיוק ירידה ממוצעת ב-AUC עומק ממוצע צמתים מספריים ירידה ממוצעת ב-PR-AUC Num בתור השורש
קשר

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

רווח הון

3363045.1

0.0199

0.0194

2,852

56468

0.0655

457

marital_status

3128996.3

0.0018

0.0230

6.633

52391

0.0107

750

age

2,520,658.8

0.0065

0.0074

4.969

356784

0.0033

200

חינוך

2015905.4

0.0018

-0.0080

5.266

115751

-0.0129

205

עיסוק

1939409.3

0.0063

-0.0040

5.017

221935

-0.0060

62

Education_num

1673648.4

0.0023

-0.0066

6.009

58303

-0.0080

197

fnlwgt

156,4189.0

-0.0002

-0.0038

9.969

431987

-0.0049

0

שעות_בשבוע

1333976.3

0.0030

0.0007

6.393

206526

-0.0031

20

הון סיכון

866863.8

0.0060

0.0020

8.076

58531

0.0118

1

מחלקה

644,208.4

0.0025

-0.0019

9.898

132196

-0.0023

0

מדינה ילידית

538841.2

0.0001

-0.0016

9.434

67211

-0.0058

0

מין

226049.3

0.0002

0.0002

10.911

37754

-0.0011

13

גזע

168,180.9

-0.0006

-0.0004

11.571

42262

-0.0031

0

כפי שאתם רואים, להגדרות שונות של חשיבות משתנה יש קנה מידה שונה, והן עלולות להוביל להבדלים בדירוג התכונות.

חשיבות משתנה מגיעה ממבנה המודל (למשל, סכום כולל, עומק מינימלי, צומתי num ו-root בטבלה שלמעלה) מחושבים באופן דומה עבור עצי החלטת (ראו

מידת החשיבות של משתנה תמורה (לדוגמה, ירידה ממוצעת ב-{accuracy, auc, pr-auc} בטבלה שלמעלה) היא מדדים אגנוסטיים שניתן לחשב בכל מודל למידה חישובית באמצעות מערך נתונים לאימות. עם זאת, עם יער אקראי, במקום להשתמש במערך נתונים לאימות, אתם יכולים לחשב את החשיבות של שילובים משתנים באמצעות הערכה שאינה כוללת כל הכבודה.

SHAP (הסברים נוספים על המודל של Shappley) הוא שיטה אגנוסטית לאימות הסברים בודדים או לפרשנות המודל. (תוכלו להיעזר בלמידה חישובית עם פרשנות על ידי מולנר למבוא לפרשנות אגנוסטית.) בדרך כלל, החישוב של SHAP יקר, אבל אפשר להאיץ משמעותית את השיטה של קבלת ההחלטות, כך שזוהי דרך טובה לפרש את יערות ההחלטות.

דוגמה לשימוש

בשיעור הקודם, בדקנו את עץ ההחלטות של CART על מערך נתונים קטן, והתקשרנו למספר tfdf.keras.CartModel. כדי לאמן מודל אקראי ביער, צריך פשוט להחליף את tfdf.keras.CartModel ב-tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

טיעוני בעד ונגד

סעיף זה כולל סיכום קצר של היתרונות והחסרונות של יערות אקראיים.

יתרונות:

  • כמו עצי החלטות, יערות אקראיים תומכים בתכונות מקוריות ומספרות, ולרוב לא צריך לעבד אותם מראש.
  • מאחר שעצי ההחלטה עצמאיים, ניתן לאמן יערות אקראיים במקביל. כתוצאה מכך, תוכלו לאמן יערות אקראיים במהירות.
  • יערות אקראיים כוללים פרמטרים של ברירת מחדל שמניבים לעיתים קרובות תוצאות מעולות. כוונון הפרמטרים האלה משפיע בדרך כלל על המודל.

חסרונות:

  • מכיוון שעציצים לא קוצצים, הם יכולים להיות גדולים. מודלים עם יותר ממיליון צמתים נפוצים. הגודל (ו לכן מהירות ההסקה) של היער האקראי עשוי להיות לפעמים בעיה.
  • יערות אקראיים אינם יכולים ללמוד שימושים פנימיים בייצוגים פנימיים ולעשות בהם שימוש חוזר. כל עץ נחוץ (וכל זרוע של כל עץ) חייב ללמוד מחדש את דפוס מערך הנתונים. במערכי נתונים מסוימים, במיוחד במערך נתונים שאינו טבלאי (למשל תמונה, טקסט), נוצרת יערות אקראיים לתוצאות גרועות יותר משיטות אחרות.