דף זה תורגם על ידי Cloud Translation API.

נושאים אחרים

היחידה הזו עוסקת בנושאים הבאים:

פרשנות של יערות אקראיים
אימון של יערות אקראיים
יתרונות וחסרונות של יערות אקראיים

פרשנות של יערות אקראיים

קשה יותר לפרש יערות אקראיים מאשר עצי החלטות. יערות אקראיים מכילים עצי החלטות שהודרכו באמצעות רעש אקראי. לכן קשה יותר להעריך את המבנה של עץ ההחלטות. עם זאת, יש כמה דרכים לפרש מודלים של יער אקראי.

אחת מהגישות לפרש יער אקראי היא פשוט לאמן ולפרש עץ החלטות באמצעות אלגוריתם CART. מאחר שגם מודלים של יער אקראי וגם מודלים של CART עוברים אימון באמצעות אותו אלגוריתם ליבה, הם 'חולקים את אותה תצוגה גלובלית' של מערך הנתונים. האפשרות הזו מתאימה למערכי נתונים פשוטים ולהבנת הפרשנות הכוללת של המודל.

מדדי החשיבות של המשתנים הם גישה נוספת טובה לשיפור היכולת לפענח את התוצאות. לדוגמה, בטבלה הבאה מוצג דירוג של מידת החשיבות של המשתנים של מאפיינים שונים במודל של יער אקראי שהוכשרה על מערך הנתונים של מפקד האוכלוסין (שנקרא גם Adult).

טבלה 8. מידת החשיבות של 14 תכונות שונות.

תכונה	סיכום הציונים	ירידה ממוצעת ברמת הדיוק	ירידה ממוצעת בערך AUC	עומק מינימלי ממוצע	מספר הצמתים	ירידה ממוצעת בערך AUC-PR	Num כשורש
קשר	4203592.6	0.0045	0.0172	4.970	57040	0.0093	1095
capital_gain	3363045.1	0.0199	0.0194	2.852	56468	0.0655	457
marital_status	3128996.3	0.0018	0.0230	6.633	52391	0.0107	750
age	2520658.8	0.0065	0.0074	4.969	356784	0.0033	200
חינוך	2015905.4	0.0018	-0.0080	5.266	115751	-0.0129	205
מקצוע	1939409.3	0.0063	‎-0.0040	5.017	221935	‎-0.0060	62
education_num	1673648.4	0.0023	‎-0.0066	6.009	58303	-0.0080	197
fnlwgt	1564189.0	‎-0.0002	‎-0.0038	9.969	431987	‎-0.0049	0
hours_per_week	1333976.3	0.0030	0.0007	6.393	206526	‎-0.0031	20
capital_loss	866863.8	0.0060	0.0020	8.076	58531	0.0118	1
workclass	644208.4	0.0025	‎-0.0019	9.898	132196	‎-0.0023	0
native_country	538841.2	0.0001	‎-0.0016	9.434	67211	‎-0.0058	0
סקס	226049.3	0.0002	0.0002	10.911	37754	‎-0.0011	13
גזע	168180.9	‎-0.0006	‎-0.0004	11.571	42262	‎-0.0031	0

כפי שרואים, להגדרות שונות של מידת החשיבות של המשתנים יש סולמות שונים, והן יכולות להוביל להבדלים בדירוג של המאפיינים.

רמת החשיבות של המשתנים שמגיעה ממבנה המודל (לדוגמה, sum score, ‏ mean min depth, ‏ num nodes ו-num as root בטבלה שלמעלה) מחושבת באופן דומה בעצים של החלטות (ראו הקטע 'Cart | Variable importance') וביערות אקראיים.

החשיבות של משתני המעריאציה (לדוגמה, ירידה ממוצעת ב-{accuracy, auc, pr-auc} בטבלה שלמעלה) הם מדדים בלתי תלויים במודל שאפשר לחשב בכל מודל למידת מכונה עם מערך נתונים לאימות. עם זאת, ב-Random Forest, במקום להשתמש במערך נתונים לאימות, אפשר לחשב את החשיבות של משתני המערוך באמצעות הערכה מחוץ לחבילה (OOB).

SHAP (SHapley Additive exPlanations) היא שיטה לא תלוית-מודל להסבר של תחזיות ספציפיות או פרשנות לפי מודל. (בספר Interpretable Machine Learning של Molnar מופיע מבוא לניתוח לא תלוי-מודל). בדרך כלל, חישוב SHAP הוא יקר, אבל אפשר להאיץ אותו באופן משמעותי ביערות החלטות, כך שזו דרך טובה לפרש יערות החלטות.

דוגמה לשימוש

בשיעור הקודם, הדרכה איך לאמן עץ החלטות של CART על קבוצת נתונים קטנה באמצעות קריאה ל-tfdf.keras.CartModel. כדי לאמן מודל של יער אקראי, מחליפים את tfdf.keras.CartModel ב-tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

יתרונות וחסרונות

בקטע הזה מופיע סיכום קצר של היתרונות והחסרונות של יערות אקראיים.

יתרונות:

בדומה לעצי החלטה, יערות אקראיים תומכים באופן מקורי בתכונות מספריות וקטגוריות, ולרוב אין צורך בעיבוד מקדים של תכונות.
מאחר שעצבי העץ של ההחלטות הם עצמאיים, אפשר לאמן יערות אקראיים במקביל. כתוצאה מכך, אפשר לאמן יערות אקראיים במהירות.
ליערות אקראיים יש פרמטרים שמוגדרים כברירת מחדל, ולרוב הם מניב תוצאות מצוינות. לרוב, לשינוי הפרמטרים האלה יש השפעה קטנה על המודל.

חסרונות:

מאחר שעציצי החלטות לא עוברים גיזום, הם יכולים להיות גדולים. מודלים עם יותר ממיליון צמתים הם נפוצים. לפעמים הגודל (ולכן מהירות ההסקה) של יער האקראי יכולים להוות בעיה.
לא ניתן ללמד יערות אקראיים להשתמש שוב בייצוגים פנימיים. כל עץ החלטות (וכל ענף של כל עץ החלטות) צריך ללמוד מחדש את התבנית של מערך הנתונים. במערכי נתונים מסוימים, במיוחד במערכי נתונים לא טבלאיים (למשל תמונה או טקסט), הדבר מוביל לכך שהיערות האקראיים מניב תוצאות גרועות יותר מאשר שיטות אחרות.

בדיקה של תכליתי

מבוא

נושאים אחרים קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

פרשנות של יערות אקראיים

דוגמה לשימוש

יתרונות וחסרונות

נושאים אחרים