הסקת יתר, הסתגלות ועצירה מוקדמת

בניגוד ליערות אקראיים, עצי צבעים גבוהים יותר יכולים להיות בדרגה גבוהה יותר. לכן, כשמדובר ברשתות נוירונים, אפשר להשתמש במערך נתונים קבוע ובהפסקה מוקדמת באמצעות מערך נתונים לאימות.

לדוגמה, הנתונים הבאים מראים עקומות אובדן ודיוק עבור הדרכות וערכות אימות באימון מודל GBT. שימו לב עד כמה העקומות זזות ומרמז על רמה גבוהה של התאמת יתר.

עליות במספר הנטישה והאובדן של האימון לעומת מספר העציצים לקבלת החלטות. מספר העצירות הולך ופוחת, ככל שמספר
  העצים גדל. עם זאת, אובדן האימות מצטמצם
  רק עד כ-40 עץ החלטות. עם יותר מ-40 עצים לקבלת החלטות,
  אובדן האימות עולה בפועל. עם 400 עצים לקבלת החלטות, הפער בין אובדן האימון לבין אובדן האימות הוא עצום.

איור 29. אובדן לעומת מספר העצים בהחלטה.

 

עלילה של הכשרה ודיוק האימות לעומת מספר העציצים לקבלת החלטות. הדיוק בהכשרה עולה בהדרגה ככל שמספר
  העצים שמקבלים החלטה גדל, ומגיע לשיא של כמעט 1.0 ב-400
  עצי החלטות. רמת הדיוק של האימות עולה ל-0.86 ב-40
  עצי החלטות, ובהמשך נופלת ל-0.83 לערך של 400
  דפי החלטות.

איור 30. דיוק לעומת מספר עצי החלטות.

 

גורמי רגולציה נפוצים עבור עצים שעברו שיפוע בהדרגה:

  • העומק המקסימלי של העץ.
  • שיעור הכיווץ.
  • יחס המאפיינים שנבדקו בכל צומת.
  • L1 ו-L2 מקדמים את ההפסד.

בדרך כלל, עצים שמספקים החלטות גדלים בשיעור נמוך מאוד בהשוואה למודלים אקראיים ביער. כברירת מחדל, עצים שמדורגים בהדרגה בעצים של TF-DF גדלים בעומק 6. בגלל שהעצים רדודים, מספר הדוגמאות המינימלי לכל עלה הוא בעל השפעה קלה מאוד, ובדרך כלל הוא לא מוגדר.

הצורך במערך נתונים לאימות הוא בעיה כאשר מספר דוגמאות האימון קטן. לכן, פעמים רבות נהוג לאמן מדרגות עץ בו-זמנית בתוך לולאה של אימות חוצה-אימות, או להשבית את העצירה המוקדמת כאשר ידוע שהמודל לא מתאים לעומס יתר.

דוגמה לשימוש

בפרק הקודם, אימנו יער אקראי על מערך נתונים קטן. בדוגמה הזו פשוט נחליף את מודל היער האקראי במודל 'עצים מדורגים':

model = tfdf.keras.GradientBoostedTreesModel()

# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)

# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)

# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
   tf_train_dataset,
   validation_ratio=0.0,
   early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.

שימוש ומגבלות

לעציצים צבעוניים יש כמה יתרונות וחסרונות

יתרונות

  • כמו עץ ההחלטות, הם תומכים באופן טבעי בתכונות מספרות וקטגורית, ובדרך כלל אין צורך בעיבוד מקדים של תכונות.
  • בעצים שמגדילים את השורשים יש היפר-פרמטרים שמוגדרים כברירת מחדל, שבדרך כלל מניבים תוצאות נהדרות. עם זאת, כוונון הפרמטרים האלה יכול לשפר משמעותית את המודל.
  • בדרך כלל, מודלים של מדרגי עצים שמבוססים על מדרגות הם קטנים (במספר צמתים ובזיכרון) ונטענים מהר (לרוב רק כמה μs / דוגמאות).

חסרונות

  • יש לאמן את עצי ההחלטות ברציפות, מה שעלול להאט את האימון שלהם באופן משמעותי. עם זאת, האיטי של האימון משתנה בשל עצי ההחלטה.
  • כמו יערות אקראיים, עצים עם הגברה הדרגתית לא יכולים ללמוד ייצוגים פנימיים ולעשות בהם שימוש חוזר. כל עץ החלטות (וכל זרוע של כל עץ) חייב ללמוד מחדש את דפוס מערך הנתונים. בחלק מערכי הנתונים, במיוחד מערכי נתונים עם נתונים לא מובְנים (לדוגמה, תמונות, טקסט), המצב הזה גורם לעצים שעברו שיפוע להציג תוצאות פחות טובות משיטות אחרות.