נתונים מתאימים ליערות החלטות

יעילות יערות ההחלטות גבוהה במיוחד כשיש לכם מערך נתונים בטבלה (נתונים שאפשר לייצג בגיליון אלקטרוני, בקובץ CSV או בטבלת מסד נתונים). נתונים בטבלאות הם אחד מהפורמטים הנפוצים ביותר, ויערות החלטות הם הפתרון המומלץ ליצירת מודלים שלהם.

טבלה 1. דוגמה למערך נתונים בטבלה.

מספר השלבים מספר העיניים משקל (פאונד) זן (תווית)
2 2 12 פינגווין
8 6 0.1 עכביש
4 2 44 כלב

בניגוד לרשתות נוירונים, יערות החלטות צורכים באופן מקורי נתונים טבלאיים של מודלים. כשמפתחים יערות החלטות, אין צורך לבצע משימות כמו:

  • ביצוע עיבוד מקדים, כמו נורמליזציה של מאפיינים או קידוד one-hot.
  • ביצוע הטמעה (למשל, החלפת ערך חסר ב--1).

עם זאת, יערות החלטות לא מתאימים לשימוש ישיר בנתונים לא טבלאיים (שנקראים גם נתונים לא מובְנים), כמו תמונות או טקסט. כן, יש דרכים לעקוף את המגבלה הזו, אבל בדרך כלל רשתות נוירונליות מטפלות טוב יותר בנתונים לא מובְנים.

ביצועים

יעילות הדגימה של יערות החלטות גבוהה. כלומר, יערות החלטות מתאימים לאימון על מערכי נתונים קטנים, או על מערכי נתונים שבהם היחס בין מספר המאפיינים למספר הדוגמאות גבוה (יכול להיות שהוא גבוה מ-1). למרות שיעילות הדגימה של יערות החלטות גבוהה, כמו בכל המודלים של למידת מכונה, הביצועים של יערות החלטות הכי טובים כשיש הרבה נתונים זמינים.

בדרך כלל, יער החלטות מסיק מהר יותר מרשתות עצביות דומות. לדוגמה, יער החלטות בגודל בינוני מפעיל את היסק הנתונים בתוך כמה מיקרו-שניות במעבד (CPU) מודרני.