מילון מונחים ללמידת מכונה: יערות החלטה

בדף הזה מופיעים מונחים במילון המונחים של Decision Forests. כאן אפשר לראות את כל המונחים במילון המונחים.

A

דגימת מאפיינים

#df

טקטיקה לאימון של יער החלטות שבה כל עץ החלטות מתבסס רק על קבוצת משנה אקראית של תכונות אפשריות כשהוא לומד את התנאי. באופן כללי, קבוצת משנה שונה של תכונות נדגמת עבור כל צומת. לעומת זאת, כשמאמנים עץ החלטה בלי דגימת מאפיינים, כל התכונות האפשריות נלקחות בחשבון לכל צומת.

תנאי שמתייחס לציר

#df

בעץ החלטה, תנאי שכולל רק תכונה אחת. לדוגמה, אם area הוא מאפיין, אז התנאי הבא הוא תנאי שמתייחס לציר:

area > 200

השוואה למצב אלכסוני.

B

bagging

#df

שיטה לאימון אנסמבל שבו כל מודל מרכיב מתאמן על קבוצת משנה אקראית של דוגמאות לאימון שנדגמו עם החזרה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומנו באמצעות שיטת ה-bagging.

המונח bagging הוא קיצור של bootstrap aggregating.

מידע נוסף זמין במאמר יערות אקראיים בקורס בנושא יערות החלטה.

תנאי בינארי

#df

בעץ החלטה, תנאי שיש לו רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, התנאי הבא הוא תנאי בינארי:

temperature >= 100

ההפך מתנאי לא בינארי.

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

C

תנאי

#df
בעץ החלטה, כל צומת שמבצע בדיקה. לדוגמה, עץ ההחלטות הבא מכיל שני תנאים:

עץ החלטה שמורכב משני תנאים: (x > 0) ו-(y > 0).

תנאי נקרא גם פיצול או בדיקה.

תנאי ניגודיות עם עלה.

ראה גם:

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

D

יער החלטות

#df

מודל שנוצר מכמה עצי החלטות. כדי לבצע חיזוי, יער ההחלטות צובר את החיזויים של עצי ההחלטות שלו. סוגים פופולריים של יערות החלטה כוללים יערות אקראיים ועצים עם שיפור גרדיאנט.

מידע נוסף זמין בקטע יערות של החלטות בקורס בנושא יערות של החלטות.

עץ החלטה

#df

מודל של למידה מונחית שמורכב מקבוצה של תנאים וענפים שמאורגנים בהיררכיה. לדוגמה, זהו עץ החלטות:

עץ החלטות שמורכב מארבעה תנאים שמסודרים בהיררכיה, שמובילים לחמישה עלים.

E

אנטרופיה

#df
#Metric

ב תורת המידע, אנטרופיה היא מדד למידת חוסר הצפיות של התפלגות הסתברויות. לחלופין, אנטרופיה מוגדרת גם ככמות המידע שכל דוגמה מכילה. הפיזור הוא בעל האנטרופיה הגבוהה ביותר האפשרית כשכל הערכים של משתנה אקראי הם בעלי הסתברות שווה.

הנוסחה לחישוב האנטרופיה של קבוצה עם שני ערכים אפשריים, 0 ו-1 (לדוגמה, התוויות בבעיית סיווג בינארי), היא:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:‎

  • H היא האנטרופיה.
  • p הוא השבר של הדוגמאות '1'.
  • q הוא החלק של הדוגמאות עם הערך '0'. שימו לב: q = (1 - p)
  • log הוא בדרך כלל log2. במקרה הזה, יחידת האנטרופיה היא ביט.

לדוגמה, נניח את הדברים הבאים:

  • ‫100 דוגמאות מכילות את הערך '1'
  • ‫300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits per example

קבוצה מאוזנת לחלוטין (לדוגמה, 200 ערכים של '0' ו-200 ערכים של '1') תהיה בעלת אנטרופיה של 1.0 ביט לכל דוגמה. ככל שקבוצה הופכת לא מאוזנת יותר, האנטרופיה שלה מתקרבת ל-0.0.

בעצי החלטה, האנטרופיה עוזרת לגבש רווח מידע כדי לעזור למפצל לבחור את התנאים במהלך הצמיחה של עץ החלטה לסיווג.

השוואת האנטרופיה עם:

אנטרופיה נקראת לעיתים קרובות אנטרופיה של שאנון.

מידע נוסף זמין במאמר Exact splitter for binary classification with numerical features בקורס Decision Forests.

F

חשיבות התכונות

#df
#Metric

מילה נרדפת למונח חשיבות משתנים.

G

gini impurity

#df
#Metric

מדד שדומה לאנטרופיה. מפצלים משתמשים בערכים שנגזרים מאי-טוהר גיני או מאנטרופיה כדי ליצור תנאים לסיווג עצי החלטה. הרווח במידע נגזר מאנטרופיה. אין מונח מקביל שמקובל באופן אוניברסלי למדד שנגזר מאי-טוהר של גיני. עם זאת, המדד הזה, שאין לו שם, חשוב בדיוק כמו מדד הרווח במידע.

המדד הזה נקרא גם מדד ג'יני או פשוט ג'יני.

עצי החלטה עם חיזוק גרדיאנט (GBT)

#df

סוג של יער החלטות שבו:

מידע נוסף זמין במאמר Gradient Boosted Decision Trees (עצים להחלטות עם שיפור גרדיאנט) בקורס בנושא Decision Forests (יערות החלטה).

חיזוק גרדיאנט

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים באופן איטרטיבי כדי לשפר את האיכות של מודל חזק (להפחית את האובדן). לדוגמה, מודל חלש יכול להיות מודל לינארי או מודל קטן של עץ החלטות. המודל החזק הופך לסכום של כל המודלים החלשים שאומנו קודם.

בצורה הפשוטה ביותר של שיטת Gradient Boosting, בכל איטרציה מאמנים מודל חלש כדי לחזות את שיפוע אובדן המידע של המודל החזק. לאחר מכן, הפלט של המודל החזק מתעדכן על ידי חיסור הגרדיאנט החזוי, בדומה לירידת גרדיאנט.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

where:‎

  • ‫$F_{0}$ הוא המודל להתחלה חזקה.
  • ‫$F_{i+1}$ הוא המודל החזק הבא.
  • ‫$F_{i}$ הוא המודל החזק הנוכחי.
  • ‫$\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא התכווצות, שדומה לקצב הלמידה בשיטת הגרדיאנט.
  • ‫$f_{i}$ הוא מודל חלש שאומן לחזות את שיפוע ההפסד של $F_{i}$.

וריאציות מודרניות של gradient boosting כוללות גם את הנגזרת השנייה (Hessian) של הפסד בחישוב שלהן.

עצי החלטה משמשים בדרך כלל כמודלים חלשים בשיטת הגרדיאנט בוסטינג. מידע נוסף על עצים עם שיפור גרדיאנט (החלטה)

I

נתיב הסקה

#df

בעץ החלטה, במהלך הסקת מסקנות, המסלול שדוגמה ספציפית עוברת מהשורש לתנאים אחרים, ומסתיים בעלה. לדוגמה, בעץ ההחלטה הבא, החצים העבים יותר מראים את נתיב ההסקה לדוגמה עם ערכי התכונות הבאים:

  • x = 7
  • y = 12
  • z = -3

נתיב ההסקה באיור הבא עובר דרך שלושה תנאים לפני שהוא מגיע לעלה (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
          תנאי הבסיס הוא (x > 0). התשובה היא Yes, ולכן נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
          התשובה היא 'כן', ולכן נתיב ההסקה עובר לתנאי הבא (z > 0). התשובה היא לא, ולכן נתיב ההסקה עובר לצומת הסופית שלו, שהיא העלה (Zeta).

שלושת החיצים העבים מראים את נתיב ההסקה.

מידע נוסף זמין במאמר עצי החלטה בקורס בנושא יערות החלטה.

הרווח ממידע

#df
#Metric

ביערות החלטה, ההפרש בין האנטרופיה של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צמתי הצאצאים שלה. האנטרופיה של צומת היא האנטרופיה של הדוגמאות בצומת הזה.

לדוגמה, נניח שיש לכם את ערכי האנטרופיה הבאים:

  • האנטרופיה של צומת ההורה = 0.6
  • האנטרופיה של צומת משני אחד עם 16 דוגמאות רלוונטיות = 0.2
  • האנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

לכן, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:

  • סכום האנטרופיה המשוקללת של צומתי הצאצא = (‎0.4 * 0.2) + (‎0.6 * 0.1) = 0.14

לכן, הרווח במידע הוא:

  • הרווח במידע = האנטרופיה של צומת האב – סכום האנטרופיה המשוקלל של צמתי הבן
  • הרווח במידע = 0.6 – 0.14 = 0.46

רוב המסַפְּקִים מנסים ליצור תנאים שממקסמים את הרווח במידע.

תנאי בתוך קבוצה

#df

בעץ החלטות, תנאי שבודק אם פריט מסוים קיים בקבוצת פריטים. לדוגמה, התנאי הבא הוא תנאי בתוך קבוצה:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של feature בסגנון הבית הוא tudor או colonial או cape, התנאי הזה מקבל את הערך Yes. אם הערך של התכונה house-style הוא משהו אחר (לדוגמה, ranch), התנאי הזה מקבל את הערך No.

תנאים בתוך קבוצת תנאים בדרך כלל מובילים לעצי החלטה יעילים יותר מאשר תנאים שבודקים תכונות מקודדות בשיטת one-hot.

L

עלה

#df

כל נקודת סיום בעץ החלטות. בניגוד לתנאי, צומת עלה לא מבצע בדיקה. במקום זאת, עלה הוא תחזית אפשרית. עלה הוא גם צומת סופית של נתיב הסקה.

לדוגמה, עץ ההחלטה הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

מידע נוסף זמין במאמר עצי החלטה בקורס בנושא יערות החלטה.

לא

צומת (עץ החלטה)

#df

בעץ החלטה, כל תנאי או עלה.

עץ החלטה עם שני תנאים ושלושה עלים.

מידע נוסף זמין במאמר עצי החלטה בקורס בנושא יערות החלטה.

מצב לא בינארי

#df

תנאי שמכיל יותר משני תוצאות אפשריות. לדוגמה, התנאי הלא בינארי הבא מכיל שלושה תוצאות אפשריות:

תנאי (number_of_legs = ?) שמוביל לשלוש תוצאות אפשריות. תוצאה אחת (number_of_legs = 8) מובילה לצומת עלים
          בשם spider. תוצאה שנייה (number_of_legs = 4) מובילה ל-
          צומת עלה בשם dog. תוצאה שלישית (number_of_legs = 2) מובילה ל-
          צומת עלה בשם penguin.

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

O

תנאי עקיף

#df

בעץ החלטה, תנאי שכולל יותר ממאפיין אחד. לדוגמה, אם הגובה והרוחב הם מאפיינים, אז התנאי הבא הוא תנאי אלכסוני:

  height > width

ההגדרה הזו שונה מתנאי שמתיישר עם הציר.

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

הערכה מחוץ לתיק (OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקה של כל עץ החלטות מול הדוגמאות שלא שימשו במהלך האימון של עץ ההחלטות הזה. לדוגמה, בתרשים הבא אפשר לראות שהמערכת מאמנת כל עץ החלטה על כשני שלישים מהדוגמאות, ואז בודקת אותו מול השליש הנותר של הדוגמאות.

יער החלטות שמורכב משלושה עצי החלטות.
          עץ החלטה אחד מתאמן על שני שלישים מהדוגמאות
          ואז משתמש בשליש הנותר להערכת OOB.
          עוד עץ החלטה מתאמן על שני שלישים שונים של הדוגמאות בהשוואה לעץ ההחלטה הקודם, ואז משתמש בשליש שונה להערכת OOB בהשוואה לעץ ההחלטה הקודם.

הערכה מחוץ לתיק היא קירוב יעיל מבחינה חישובית ושמרני של מנגנון האימות הצולב. באימות צולב, מאמנים מודל אחד לכל סבב של אימות צולב (לדוגמה, 10 מודלים מאומנים באימות צולב של 10 קפלים). בשיטת ההערכה OOB, מאמנים מודל יחיד. מכיוון שbagging מעכב חלק מהנתונים מכל עץ במהלך האימון, אפשר להשתמש בנתוני OOB כדי לבצע קירוב של אימות צולב.

מידע נוסף זמין במאמר הערכה מחוץ לתיק בקורס בנושא יערות החלטה.

P

חשיבות משתנים בתמורה

#df
#Metric

סוג של חשיבות משתנה שמעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי הערכים של התכונה. חשיבות המשתנה בפרמוטציה היא מדד שלא תלוי במודל.

R

יער אקראי

#df

אנסמבל של עצי החלטה שבהם כל עץ החלטה מאומן עם רעש אקראי ספציפי, כמו bagging.

יערות אקראיים הם סוג של יער החלטות.

מידע נוסף זמין במאמר Random Forest (יער אקראי) בקורס בנושא Decision Forests (יערות החלטה).

הרמה הבסיסית (root)

#df

הצומת ההתחלתי (התנאי הראשון) בעץ החלטה. לפי המוסכמה, שורש העץ מוצג בחלק העליון של תרשימי עץ ההחלטות. לדוגמה:

עץ החלטה עם שני תנאים ושלושה עלים. תנאי ההתחלה (x > 2) הוא השורש.

S

דגימה עם החזרה

#df

שיטה לבחירת פריטים מתוך קבוצת פריטים אפשריים, שבה אפשר לבחור את אותו פריט כמה פעמים. הביטוי 'עם החזרה' מציין שאחרי כל בחירה, הפריט שנבחר מוחזר למאגר הפריטים שאפשר לבחור מהם. בשיטה ההפוכה, דגימה ללא החזרה, אפשר לבחור פריט מועמד רק פעם אחת.

לדוגמה, נניח שיש לכם את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באופן אקראי את fig כפריט הראשון. אם משתמשים בדגימה עם החזרה, המערכת בוחרת את הפריט השני מתוך הקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, זה אותו סט כמו קודם, כך שהמערכת יכולה לבחור שוב את fig.

אם משתמשים בדגימה ללא החזרה, אחרי שבוחרים דגימה אי אפשר לבחור אותה שוב. לדוגמה, אם המערכת בוחרת באופן אקראי את fig כמדגם הראשון, היא לא יכולה לבחור בו שוב.fig לכן, המערכת בוחרת את הדגימה השנייה מתוך הקבוצה הבאה (המצומצמת):

fruit = {kiwi, apple, pear, cherry, lime, mango}

כיווץ

#df

היפר-פרמטר בשיטת הגרדיאנט ששולט בהתאמת יתר. ההתכווצות בחיזוק גרדיאנט דומה לקצב הלמידה בירידת גרדיאנט. הערך של ההתכווצות הוא מספר עשרוני בין 0.0 ל-1.0. ערך כיווץ נמוך יותר מפחית את התאמת היתר יותר מערך כיווץ גבוה יותר.

פיצול

#df

בעץ החלטות, שם נוסף לתנאי.

מפצל

#df

במהלך אימון עץ החלטה, השגרה (והאלגוריתם) שאחראית למציאת התנאי הטוב ביותר בכל צומת.

T

בדיקה

#df

בעץ החלטות, שם נוסף לתנאי.

סף (עבור עצי החלטה)

#df

בתנאי שמוגדר לאורך ציר, הערך שמאפיין מושווה אליו. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

מידע נוסף זמין במאמר Exact splitter for binary classification with numerical features בקורס בנושא Decision Forests.

V

חשיבות המשתנים

#df
#Metric

קבוצת ציונים שמציינת את החשיבות היחסית של כל תכונה למודל.

לדוגמה, נניח שיש עץ החלטה שמבצע הערכה של מחירי בתים. נניח שעץ ההחלטה הזה משתמש בשלושה מאפיינים: מידה, גיל וסגנון. אם קבוצת חשיבות המשתנים של שלושת המאפיינים היא {size=5.8, age=2.5, style=4.7}, אז המאפיין size חשוב יותר לעץ ההחלטה מהמאפיינים age או style.

קיימים מדדים שונים לחשיבות משתנים, שיכולים לספק למומחי למידת מכונה מידע על היבטים שונים של מודלים.

W

חוכמת ההמונים

#df

הרעיון שלפיו חישוב ממוצע של דעות או הערכות של קבוצה גדולה של אנשים ("הקהל") מניב לעיתים קרובות תוצאות טובות באופן מפתיע. לדוגמה, נניח שמשחקים משחק שבו אנשים מנחשים כמה סוכריות ג'לי יש בצנצנת גדולה. למרות שרוב הניחושים האישיים לא יהיו מדויקים, הוכח אמפירית שהממוצע של כל הניחושים קרוב באופן מפתיע למספר האמיתי של סוכריות הג'לי בצנצנת.

מודלים משולבים הם מקבילה בתוכנה לחוכמת ההמונים. גם אם מודלים בודדים יוצרים תחזיות לא מדויקות, ממוצע התחזיות של הרבה מודלים יוצר לעיתים קרובות תחזיות טובות באופן מפתיע. לדוגמה, למרות שעץ החלטה בודד עשוי לספק תחזיות לא טובות, יער החלטה לרוב מספק תחזיות טובות מאוד.