חשיבות משתנה
חשיבות משתנה (שנקראת גם חשיבות התכונה) היא ציון שקובע עד כמה התכונה 'חשובה' למודל. לדוגמה, אם במודל נתון עם שתי תכונות קלט "f1" ו-"f2", החשיבות של המשתנים היא {f1=5.8, f2=2.5}, אז התכונה "f1" חשובה יותר למודל מאשר התכונה "f2". כמו מודלים אחרים של למידת מכונה, חשיבות משתנה היא דרך פשוטה להבין איך פועל עץ ההחלטות.
אפשר להחיל על עצי החלטות חשיבות של משתנים אגנוסטיים כמו חשיבות משתנה תמורות.
לעצי ההחלטה יש גם חשיבות משתנה ספציפית, למשל:
- סכום הפיצול עם משתנה נתון.
- מספר הצמתים עם משתנה נתון.
- העומק הממוצע של המופע הראשון של ישות בכל נתיבי העצים.
רמות חשיבות משתנות יכולות להשתנות בהתאם לתכונות כמו:
- סמנטיקה
- קנה מידה
- נכסים
בנוסף, חשיבות שונה מספקת מידע מסוגים שונים לגבי:
- המודל
- מערך הנתונים
- תהליך האימון
לדוגמה, מספר התנאים שכוללים תכונה ספציפית מציין עד כמה עץ ההחלטות בוחן את התכונה הספציפית הזו, וזה יכול להצביע על חשיבות משתנה. בסופו של דבר, אם לא היה זה משנה, אלגוריתם הלמידה לא היה משתמש בתכונה מסוימת במספר תנאים. עם זאת, אותה תכונה שמופיעה במספר תנאים יכולה גם לציין שהמודל מנסה אבל לא מצליח להכליל את הדפוס של פיצ'ר. לדוגמה, זה יכול לקרות כשתכונה היא רק מזהה לדוגמה, ללא מידע להכללה.
מצד שני, ערך גבוה לחשיבות משתנה גבוהה של תמורה מצביע על כך שהסרת תכונה פוגעת במודל, וזה מצביע על חשיבות משתנה. עם זאת, אם המודל יציב, הסרת תכונה אחת לא בהכרח תפגע במודל.
מכיוון שחשיבות שונה משתנה מספקת מידע על היבטים שונים של המודלים, חשוב לבחון כמה חשיבות שונים בו-זמנית. לדוגמה, אם תכונה מסוימת חשובה בהתאם לכל החשיבות של המשתנים, סביר להניח שהתכונה הזו חשובה. דוגמה נוספת: אם למאפיין מסוים יש חשיבות משתנה גבוהה של 'מספר צמתים' וחשיבות משתנה קטנה של 'פרמוטציה', יכול להיות שיהיה קשה לכלול את התכונה הזו ולפגוע באיכות המודל.
model.describe()
ועיון בכרטיסייה 'חשיבות משתנה'.
לפרטים נוספים, קראו את
המדריך להבנת מודלים.