נתונים מתאימים ליערות קבלת ההחלטות

יערות לקבלת החלטות הם היעילים ביותר כאשר יש מערך נתונים טבלאי (נתונים שאתם עשויים לייצג בגיליון אלקטרוני, בקובץ csv או בטבלת מסדי נתונים). נתונים בטבלאות הם אחד מהפורמטים הנפוצים ביותר של נתונים, ויערות קבלת החלטות צריכים להיות ה"פתרון" שלכם לבניית מודל.

טבלה 1. דוגמה למערך נתונים של טבלה.

מספר רגליים מספר העיניים משקל (פאונד) זן (תווית)
2 2 12 פינגווין
8 6 0.1 עכביש
4 2 44 כלב

בשונה מרשתות נוירונים, יערות לקבלת החלטות צורכים נתונים בטבלאות באופן טבעי. כשאתם מפתחים יערות לקבלת החלטות, אין צורך לבצע משימות כמו:

  • ביצוע עיבוד מראש כמו נורמליזציה של תכונות או קידוד חם.
  • לבצע הדמיה (לדוגמה, להחליף ערך חסר ב--1).

עם זאת, יערות לקבלת החלטות לא מתאימים באופן ישיר לצריכת נתונים שאינם טבלאות (שנקראים גם נתונים לא מובְנים), כמו תמונות או טקסט. כן. יש פתרונות זמניים למגבלה הזו, אבל רשתות נוירונים מטפלות בדרך כלל בנתונים לא מובְנים.

ביצועים

יערות לקבלת החלטות הם דוגמיות יעילות. כלומר, יערות ההחלטה הם לאימון במערכי נתונים קטנים או במערכי נתונים שבהם היחס בין מספר התכונות או מספר הדוגמאות גבוה (אולי יותר מ-1). יערות להחלטות הם יעילים מבחינת דגימה, כמו כל המודלים של הלמידה החישובית, אבל יערות ההחלטה הם הטובים ביותר כשיש הרבה נתונים זמינים.

בדרך כלל, ביערות האלה מסיקים מסקנות מהר יותר מרשתות נוירונים דומות. לדוגמה, כדי להסיק את רמת הדיוק של יער מסוים, המערכת מפיקה מסקנות תוך כמה מיקרו-שניות במעבד מרכזי.