מידת החשיבות של המשתנים
חשיבות המשתנה (שנקראת גם חשיבות המאפיין) היא ציון שמציין עד כמה מאפיין מסוים 'חשוב' למודל. לדוגמה, אם במודל נתון עם שני מאפייני קלט 'f1' ו-'f2', מידת החשיבות של המשתנים היא {f1=5.8, f2=2.5}, אז המאפיין 'f1' 'חשוב' יותר למודל מאשר המאפיין 'f2'. בדומה למודלים אחרים של למידת מכונה, החשיבות של המשתנים היא דרך פשוטה להבין איך עץ החלטות פועל.
אפשר להחיל על עצי החלטות את מידת החשיבות של משתנים שאינם תלויים במודל, כמו מידת החשיבות של משתני המבנה.
לעצי החלטה יש גם חשיבות ספציפית של משתנים, כמו:
- הסכום של ציון הפיצול עם משתנה נתון.
- מספר הצמתים עם משתנה נתון.
- העומק הממוצע של המופע הראשון של מאפיין בכל הנתיבים של העץ.
מידת החשיבות של המשתנים יכולה להשתנות בהתאם למאפיינים כמו:
- סמנטיקה
- סולם
- נכסים
בנוסף, רמת החשיבות של המשתנים מספקת סוגים שונים של מידע לגבי:
- המודל
- מערך הנתונים
- תהליך האימון
לדוגמה, מספר התנאים שמכילים מאפיין ספציפי מציין את מידת ההתמקדות של עץ ההחלטות במאפיין הספציפי הזה, ויכול להצביע על מידת החשיבות של המשתנה. אחרי הכל, אלגוריתם הלמידה לא היה משתמש בתכונה בכמה תנאים אם לא היה לכך חשיבות. עם זאת, יכול להיות שאותה תכונה שמופיעה בכמה תנאים גם מצביעה על כך שהמודל מנסה להכליל את התבנית של התכונה, אבל לא מצליח לעשות זאת. לדוגמה, זה יכול לקרות כשתכונה היא רק מזהה לדוגמה ללא מידע שאפשר להכליל.
לעומת זאת, ערך גבוה של חשיבות משתנה Permutation מצביע על כך שהסרת מאפיין פוגעת במודל, וזה סימן לחשיבות המשתנה. עם זאת, אם המודל חזק, הסרת מאפיין אחד לא תגרום נזק למודל.
מכיוון שחשיבות משתנים שונים מספקת מידע על היבטים שונים של המודלים, כדאי לבחון כמה חשיבות משתנים בו-זמנית. לדוגמה, אם תכונה מסוימת חשובה לפי כל רמות החשיבות של המשתנים, סביר להניח שהתכונה הזו חשובה. דוגמה נוספת: אם למאפיין יש חשיבות גבוהה של המשתנה 'מספר הצמתים' וחשיבות נמוכה של המשתנה 'תמורה', יכול להיות שיהיה קשה להכליל את המאפיין הזה והוא עלול לפגוע באיכות המודל.
model.describe()
והצגת הכרטיסייה 'חשיבות המשתנה'.
למידע נוסף, ראו
המדריך להבנת מודלים.