יערות אקראיים

יער אקראי (RF) הוא הרכב של עצי החלטות שבו כל עץ החלטה מאומן בעזרת רעש אקראי ספציפי. יערות אקראיים הם הסוג הפופולרי ביותר של הרכב עץ ההחלטה. ביחידה הזו מתוארות כמה שיטות ליצירת עצי החלטות עצמאיים כדי לשפר את הסיכויים ליצירת יער אקראי יעיל.

מטענים

המשמעות של Bagging ( bootstrap aggregating) היא אימון של כל עץ החלטות בקבוצת משנה אקראית של הדוגמאות בקבוצת האימון. במילים אחרות, כל עץ החלטות ביער האקראי מאומן לפי קבוצת משנה אחרת של דוגמאות.

לבאג הוא ייחודי. כל עץ החלטות מאומן לפי אותו מספר דוגמאות כמו בקבוצת האימון המקורית. לדוגמה, אם ערכת האימון המקורית מכילה 60 דוגמאות, כל עץ החלטות יעבור אימון על 60 דוגמאות. עם זאת, קיבוץ הנתונים משמש רק לאימון של כל עץ החלטות בקבוצת משנה (בדרך כלל, 67%) מהדוגמאות האלה. לכן, צריך להשתמש שוב בחלק מ-40 הדוגמאות האלה בקבוצת המשנה בזמן האימון של עץ החלטות נתון. השימוש החוזר הזה נקרא אימון "עם החלפה".

לדוגמה, בטבלה 6 אפשר לראות איך אריזה יכולה לחלק שש דוגמאות על פני שלושה עצי החלטה. כמה נקודות חשובות:

  • כל עץ החלטות מתאמן על שש דוגמאות בסך הכול.
  • כל עץ החלטות מתאמן לפי קבוצה שונה של דוגמאות.
  • בכל עץ החלטות נעשה שימוש חוזר בדוגמאות מסוימות. לדוגמה, בדוגמה 4 משתמשים פעמיים באימון של עץ ההחלטות 1. לכן, המשקל שנלמד מדוגמה #4 מוכפל בפועל בעץ החלטות 1.

טבלה 6. קיבוץ של שש דוגמאות אימון בשלושה עצי החלטות. כל מספר מייצג את מספר הפעמים שדוגמה נתונה לאימון (#1-6) חוזרת על עצמה במערך הנתונים לאימון של עץ החלטות נתון (1-3).

דוגמאות לאימון
#1 #2 #3 #4 #5 #6
מערך הנתונים המקורי 1 1 1 1 1 1
עץ החלטות 1 1 1 0 2 1 1
עץ החלטות 2 3 0 1 0 2 0
עץ החלטות 3 0 1 3 1 0 1

בתיק, כל עץ החלטות מאומן כמעט תמיד על סמך המספר הכולל של הדוגמאות בערכת האימון המקורית. אימון של כל עץ החלטות על סמך יותר דוגמאות או פחות דוגמאות, נוטה לפגוע באיכות של היער האקראי.

אמנם הדגימה לא קיימת במסמך המקורי בנושא יער אקראי, אבל לפעמים הדגימה מתבצעת "ללא החלפה". כלומר, אי אפשר לראות דוגמה לאימון יותר מפעם אחת בקבוצת אימון של עץ ההחלטות. לדוגמה, בטבלה הקודמת, כל הערכים יהיו 0 או 1.

קוד YDF
אפשר להפעיל את האימון ללא החלפה באמצעות המטלה הבאה ב-YDF: bootstrap_training_dataset=False

דגימת מאפיינים

המשמעות של דגימת מאפיינים היא שבמקום לחפש את התנאי הטוב ביותר בכל התכונות הזמינות, רק קבוצת משנה אקראית של תכונות נבדקת בכל צומת. קבוצת התכונות שנבדקו נדגמת באופן אקראי בכל צומת בעץ ההחלטות.

עץ ההחלטות הבא מדגים את דגימת המאפיין או התכונה. כאן אנחנו מאמנים את עץ ההחלטות על 5 תכונות (f1-f5). הצמתים הכחולים מייצגים את התכונות שנבדקו, ואילו הצמתים הלבנים לא נבדקים. התנאי נוצר על סמך התכונות הטובות ביותר שנבדקו (המיוצגות באמצעות מתאר אדום).

שלושה צמתים, שלכולם מופיעות חמש תכונות. צומת השורש ואחד מהצמתים הצאצאים שלו בודקים שלוש מתוך חמש התכונות. צומת הצאצא השני בודק שתיים מחמש התכונות.

איור 21. דגימת מאפיינים.

 

היחס בין דגימת המאפיינים הוא היפר-פרמטר חשוב לרגולציה. האיור הקודם השתמש ביחס של כ-3⁄5. הטמעות רבות של יער אקראי בודקות כברירת מחדל 1/3 מהתכונות לרגרסיה ול-sqrt(מספר התכונות) לצורך סיווג.

ב-TF-DF, ההיפר-פרמטרים הבאים שולטים בדגימת המאפיינים:

  • num_candidate_attributes
  • num_candidate_attributes_ratio

לדוגמה, במקרה num_candidate_attributes_ratio=0.5, חצי מהתכונות ייבדקו בכל צומת.

השבתת רגולזציה של עץ ההחלטות

עצי החלטה אישיים ביער אקראי מאומנים ללא גיזום. (מידע נוסף זמין בקטע התאמת גודל וחיתוך). כך נוצרים עצים מורכבים מדי עם איכות חיזוי נמוכה. במקום לקבוע הסדרת עצים ספציפיים, העצים מרכיבים תחזיות כלליות מדויקות יותר.

expect שהאימון והבדיקה של יער אקראי יהיו שונים. דיוק האימון של יער אקראי בדרך כלל גבוה בהרבה (לפעמים שווה 100%). עם זאת, דיוק גבוה מאוד באימון ביער אקראי הוא נורמלי, ולא מצביע על כך שהיער האקראי עמוס.

שני המקורות של רנדומיזציה (אריזה ודגימת מאפיינים) מבטיחים את העצמאות היחסית בין עצי ההחלטות. עצמאות זו מתקנת את התאמת היתר של עצי ההחלטות הנפרדות. לכן המתחם לא מתאים במיוחד. נמחיש את ההשפעה הלא אינטואיטיבית ביחידה הבאה.

יערות אקראיים טהורים מתאמנים ללא העומק המקסימלי או מספר מינימלי של תצפיות לכל עלה. בפועל, הגבלת העומק המקסימלי והמספר המינימלי של תצפיות לכל עלה היא מועילה. כברירת מחדל, יערות אקראיים רבים משתמשים בברירות המחדל הבאות:

  • עומק מקסימלי של כ-16
  • מספר תצפיות מינימלי לכל עלה של כ-5.

אפשר לכוונן את ההיפר-פרמטרים האלה.

קוד YDF
הטיונר של YDF הוא דרך פשוטה לכוונן היפר-פרמטרים. פרטים נוספים זמינים במדריך כוונון של YDF.

בהירות הרעש

למה רעש אקראי משפר את האיכות של יער אקראי? כדי להמחיש את היתרונות של רעש אקראי, איור 22 מציג את התחזיות של עץ החלטות קלאסי (גזום) ויער אקראי שעבר אימון על סמך כמה דוגמאות לבעיה דו-ממדית פשוטה עם דפוס אליפסה.

ידוע שדפוסי אליפסות הם דוגמה טובה לאלגוריתמים של עץ ההחלטות ושל יער ההחלטות. שימו לב שאיכות החיזוי של עץ ההחלטות הקטוע לא יכולה להיות זהה לאיכות של היער האקראי.

שלושה איורים. האיור הראשון, שמסומן בתווית Ground Truth, הוא אליפסה מושלמת. האיור השני, שמסומן בתווית 'עץ החלטות קטוע', מופיע בין אליפסה למלבן. איור שלישי, שנקרא 'יער אקראי', הוא לא בדיוק אליפסה, אלא דומה יותר לאליפסה מאשר האיור 'עץ החלטות קטוע'.

איור 22. אמת קרקע לעומת חיזויים שנוצרו על ידי עץ החלטות קטוע יחיד וחיזויים שנוצרו על ידי יער אקראי.

בתרשים הבא מוצגות התחזיות של שלושת עצי ההחלטות הראשונים שאינם חתוכים ביער האקראיים. כלומר, עצי ההחלטות מאומנים את כולם בשילוב של:

  • הבאג
  • דגימת מאפיינים
  • השבתת קיצוץ

שימו לב שהחיזויים הנפרדים של שלושת עצי ההחלטות האלה גרועים יותר מהחיזויים של עץ ההחלטות הגזירה באיור הקודם. עם זאת, מכיוון שיש קורלציה נמוכה בין השגיאות של עצי ההחלטות הנפרדות בלבד, שלושת עצי ההחלטות משולבים יחד כדי ליצור תחזיות אפקטיביות.

שלוש אליפסות רועשות מאוד.

איור 23. שלושה עצי החלטה לא חתוכים שיבנו מתחם אפקטיבי.

מכיוון שעצי ההחלטות ביער אקראי לא חתומים, אימון של יער אקראי לא צריך מערך נתונים לאימות. בפועל, ובמיוחד במערכי נתונים קטנים, צריך לאמן מודלים על כל הנתונים הזמינים.

כשמאמנים יער אקראי, ככל שמוסיפים עוד עצי החלטות, השגיאה כמעט תמיד פוחתת. כלומר, איכות המודל כמעט תמיד משתפרת. כן, הוספת עוד עצי החלטה מפחיתה כמעט תמיד את השגיאה ביער האקראי. במילים אחרות, הוספת עוד עצי החלטות לא יכולה לגרום ליער האקראי להספיק יותר מדי. בשלב מסוים, המודל פשוט מפסיקים להשתפר. אחד התיאורים הבולטים של ליאו בריימן הוא "יערות אקראיים לא תופסים יותר מדי, כשמוסיפים עוד עצים".

לדוגמה, בתרשים הבא מוצגת הערכת הבדיקה של מודל יער אקראי, ככל שמוסיפים יותר עצי החלטה. הדיוק משתפר במהירות עד לרמה של בערך 0.865. עם זאת, הוספה של עוד עצי החלטות לא גורמת לירידה ברמת הדיוק. במילים אחרות,המודל לא יתרון. ההתנהגות הזו (לרוב) תמיד נכונה, ובלתי תלויה בהיפר-פרמטרים.

תרשים של דיוק לעומת מספר עצי ההחלטות שתוארו בפסקה הקודמת.

איור 24. הדיוק נשאר ללא שינוי ככל שנוספים עוד עצי החלטות ליער האקראי.