מילון מונחים ללמידת מכונה: יערות החלטה

הדף הזה מכיל מונחים ממילון המונחים של 'יערות החלטות'. כאן מפורטות כל ההגדרות במילון.

A

דגימת מאפיינים

#df

טקטיקה לאימון של יער החלטות, שבה כל עץ החלטות מתייחס רק לקבוצת משנה אקראית של מאפיינים אפשריים במהלך הלמידה של התנאי. באופן כללי, נדגמת קבוצת משנה שונה של מאפיינים לכל צומת. לעומת זאת, כשמאמנים עץ החלטות בלי דגימת מאפיינים, כל המאפיינים האפשריים נלקחים בחשבון לכל צומת.

תנאי לאורך ציר

#df

בעץ החלטות, תנאי שמערב רק תכונה אחת. לדוגמה, אם area הוא מאפיין, אז התנאי הבא הוא תנאי משויך לציר:

area > 200

בניגוד לתנאי עקיף.

B

bagging

#df

שיטה לאימון של אוסף מודלים שבו כל מודל מרכיב מתאמן על קבוצת משנה אקראית של דוגמאות אימון שנבחרו באמצעות דגימה עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצים של החלטות שהוכשרו באמצעות bagging.

המונח bagging הוא קיצור של bootstrap aggregating.

מידע נוסף זמין בקטע יערות אקראיים בקורס 'יערות החלטות'.

תנאי בינארי

#df

בעץ החלטות, תנאי שיש לו רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, זהו תנאי בינארי:

temperature >= 100

בניגוד לתנאי לא בינארי.

למידע נוסף, ראו סוגי תנאים בקורס 'יערות החלטות'.

C

תנאי

#df

בעץ החלטות, כל צומת שמעריך ביטוי. לדוגמה, החלק הבא של עץ החלטות מכיל שני תנאים:

עץ החלטות שמורכב משני תנאים: (x > 0) ו-(y > 0).

תנאי נקרא גם חלוקה או בדיקה.

תנאי ניגודיות עם leaf.

ראה גם:

למידע נוסף, ראו סוגי תנאים בקורס 'יערות החלטות'.

D

יער החלטות

#df

מודל שנוצר מכמה עצי החלטות. יער החלטות מבצע חיבור של התחזיות של עצי ההחלטות שלו כדי לקבל תחזית. סוגי יערות ההחלטות הפופולריים כוללים יערות אקראיים ויערות עם שיפור שיפוע.

מידע נוסף זמין בקטע יערות החלטות בקורס 'יערות החלטות'.

עץ החלטות

#df

מודל של למידה בפיקוח שמורכב מקבוצה של תנאים ועלים שמאורגנים באופן היררכי. לדוגמה, זהו עץ החלטות:

עץ החלטות שמורכב מארבעה תנאים שמסודרים בהיררכיה, שמוביל לחמישה עלים.

E

אנטרופיה

#df

ב תיאוריית המידע, תיאור של מידת הבלתי צפוי של התפלגות הסתברות. לחלופין, אנטרופי מוגדר גם ככמות המידע שמכילה כל דוגמה. ההסתברות הגבוהה ביותר של אנטרופי בחלוקה מתקבלת כאשר כל הערכים של משתנה אקראי סבירים באותה מידה.

הנוסחה של האנטרופיה של קבוצה עם שני ערכים אפשריים, '0' ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) היא:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

כאשר:

  • H היא האנטרופיה.
  • p הוא החלק היחסי של דוגמאות מסוג '1'.
  • q הוא החלק היחסי של דוגמאות עם ערך '0'. הערה: q = (1 - p)
  • בדרך כלל, log הוא log2. במקרה הזה, יחידת האנטרופי היא ביט.

לדוגמה, נניח את הפרטים הבאים:

  • 100 דוגמאות מכילות את הערך '1'
  • 300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ביט לכל דוגמה

לאוסף מאוזן באופן מושלם (לדוגמה, 200 '0' ו-200 '1') תהיה אנטרופיה של 1.0 ביט לכל דוגמה. ככל שהקבוצה לא מאוזנת יותר, האנטרופי שלה מתקרב ל-0.0.

בעצים של החלטות, האנטרופיה עוזרת לנסח את השיפור במידע כדי לעזור למחלץ לבחור את התנאים במהלך הצמיחה של עץ החלטות לסיווג.

השוואה בין האנטרופיה לבין:

לעיתים קרובות קוראים לאנטרופיה אנטרופיית שרנון.

מידע נוסף זמין בקטע Exact splitter for binary classification with numerical features בקורס Decision Forests.

F

מדדי החשיבות של המאפיינים

#df

שם נרדף לחשיבות המשתנים.

G

זיהום של Gini

#df

מדד דומה ל-אנטרופי. מחליקים משתמשים בערכים שמקורם בזיהום של Gini או באנטרופי כדי ליצור תנאים לסיווג של עצים של החלטות. רווח המידע נגזר מהאנטרופיה. אין מונח מקביל מקובל באופן אוניברסלי למדד שמתקבל מהזיהום של Gini. עם זאת, המדד הזה ללא שם חשוב באותה מידה כמו הרווח המידעי.

אי-הטהרה של Gini נקראת גם מדד Gini או פשוט Gini.

עצים (החלטות) עם שיפור שיפוע (GBT)

#df

סוג של יער החלטות שבו:

מידע נוסף זמין בקטע Gradient Boosted Decision Trees בקורס Decision Forests.

שיפור הדרגתי

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים כדי לשפר באופן איטרטיבי את האיכות (להפחית את האובדן) של מודל חזק. לדוגמה, מודל חלש יכול להיות מודל לינארי או מודל קטן של עץ החלטות. המודל החזק הופך לסכום של כל המודלים החלשים שאומנו בעבר.

בצורתה הפשוטה ביותר של שיפור שיפוע, בכל חזרה (iteration), מודל חלש מאומן לחזות את שיפוע האובדן של המודל החזק. לאחר מכן, הפלט של המודל החזק מתעדכן על ידי חיסור של שיפוע החיזוי, בדומה לירידה בגרדינט.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

כאשר:

  • $F_{0}$ הוא המודל החזק ההתחלתי.
  • $F_{i+1}$ הוא המודל החזק הבא.
  • $F_{i}$ הוא המודל החזק הנוכחי.
  • הערך $\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא צמצום, שהוא מקביל לשיעור הלמידה בירידה בגרדינט.
  • ‎$f_{i}$ הוא המודל החלש שאומן לחזות את שיפוע האובדן של ‎$F_{i}$.

וריאציות מודרניות של שיפור שיפוע כוללות גם את הנגזרת השנייה (הסיסון) של האובדן בחישוב שלהן.

עצים של החלטות משמשים בדרך כלל כמודלים חלשים בשיפור שיפוע (gradient boosting). למידע נוסף, ראו עצים משופרים (החלטות) של שיפוע.

I

נתיב הסקה

#df

בעץ החלטות, במהלך הסקת המסקנות, הנתיב של דוגמה מסוימת מתחיל בשורש וממשיך לתנאים אחרים, ומסתיים בעלה. לדוגמה, בעץ ההחלטות הבא, החצים העבים יותר מצביעים על נתיב ההסקה לדוגמה עם ערכי המאפיינים הבאים:

  • x = 7
  • y = 12
  • z = -3

נתיב ההסקה באיור הבא עובר דרך שלושה תנאים לפני שהוא מגיע לעלעל (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
          תנאי הבסיס הוא (x > 0). מכיוון שהתשובה היא 'כן', נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
          מכיוון שהתשובה היא 'כן', נתיב ההסקה עובר לתנאי הבא (z > 0). מכיוון שהתשובה היא 'לא', נתיב ההסקה עובר לצומת הקצה שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מציגים את נתיב ההסקה.

מידע נוסף זמין בקטע עצים של החלטות בקורס 'יערות החלטות'.

רווח מידע

#df

ביערות החלטות, ההפרש בין האנטרופי של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צומתי הצאצאים שלו. האנטרופיה של צומת היא האנטרופיה של הדוגמאות בצומת הזה.

לדוגמה, אלה ערכי האנטרופיה הבאים:

  • האנטרופיה של צומת ההורה = 0.6
  • האנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
  • האנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

כלומר, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:

  • סכום האנטרופיה המשוקל של צומתי הצאצאים = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

לכן, הרווח המידעי הוא:

  • רווח מידע = אנטרופיה של צומת הורה - סכום אנטרופיה משוקלל של צמתים צאצאים
  • רווח המידע = 0.6 - 0.14 = 0.46

רוב המחלקים מנסים ליצור תנאים שממקסמים את רווח המידע.

תנאי בקבוצה

#df

בעץ החלטות, תנאי שבודק אם פריט אחד נמצא בקבוצת פריטים. לדוגמה, זהו תנאי בקבוצה:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של המאפיין של סגנון הבית הוא tudor או colonial או cape, התנאי הזה מקבל את הערך 'כן'. אם הערך של המאפיין house-style הוא ערך אחר (לדוגמה, ranch), התנאי הזה מקבל את הערך No.

תנאים בתוך הקבוצה בדרך כלל מובילים לעצי החלטות יעילים יותר מאשר תנאים שבוחנים מאפיינים מקודדים ב-one-hot.

L

עלה

#df

כל נקודת קצה בעץ החלטות. בניגוד לתנאי, עלה לא מבצע בדיקה. הוא מייצג תחזית אפשרית. עלה הוא גם הצומת הסופי של נתיב ההסקה.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

לא

צומת (עץ החלטות)

#df

בעץ החלטות, כל תנאי או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

תנאי לא בינארי

#df

תנאי שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הלא בינארי הבא מכיל שלושה תוצאות אפשריות:

תנאי (number_of_legs = ?) שמוביל לשלוש תוצאות אפשריות. תוצאה אחת (number_of_legs = 8) מובילה לעלה בשם spider. תוצאה שנייה (number_of_legs = 4) מובילה להעלאת עלה בשם dog. תוצאה שלישית (number_of_legs = 2) מובילה
          לצמח בשם penguin.

O

תנאי משופע

#df

בעץ החלטות, תנאי שכולל יותר ממאפיין אחד. לדוגמה, אם הגובה והרוחב הם גם תכונות, אז התנאי הבא הוא תנאי עקיף:

  height > width

בניגוד לתנאי משויך לציר.

הערכה מחוץ לחבילה (OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקת כל עץ החלטות מול דוגמאות שלא שימשו במהלך האימון של עץ ההחלטות הזה. לדוגמה, בתרשים הבא אפשר לראות שהמערכת מאומנת על כל עץ החלטות בכ-2/3 מהדוגמאות, ולאחר מכן מבצעת הערכה על סמך השליש הנותר של הדוגמאות.

יער החלטות שמורכב משלושה עצי החלטות.
          עץ החלטות אחד מתאמן על שני שלישים מהדוגמאות, ואז משתמש בשליש הנותר לצורך הערכה מחוץ למערך (OOB).
          עץ החלטות שני מתאמן על שני שלישים שונים של הדוגמאות לעומת עץ ההחלטות הקודם, ולאחר מכן משתמש בשליש שונה של הדוגמאות להערכה מחוץ למערך (OOB) לעומת עץ ההחלטות הקודם.

הערכה מחוץ לחבילה היא קירוב שמרני ויעיל מבחינה חישובית למנגנון של אימות חוצה. בתהליך אימות חוצה, מודל אחד מאומן בכל סיבוב של אימות חוצה (לדוגמה, 10 מודלים מאומנים באימות חוצה של 10 סבבים). כשמשתמשים בהערכה מחוץ לקופסה, מתבצע אימון של מודל יחיד. מכיוון שה-bagging משאיר חלק מהנתונים מכל עץ במהלך האימון, הערכה מחוץ למערך יכולה להשתמש בנתונים האלה כדי לבצע הערכה קרובה של אימות חוצה.

P

רמות החשיבות של משתני תמורה

#df

סוג של חשיבות משתנה שמעריך את העלייה בשגיאת החיזוי של מודל אחרי שינויי ערך של המאפיין. המדד 'חשיבות משתנה המַפְרִין' הוא מדד שאינו תלוי במודל.

R

יער אקראי

#df

אוסף של עצים של החלטות, שבהם כל עץ החלטות מאומן באמצעות רעש אקראי ספציפי, כמו bagging.

יערות אקראיים הם סוג של יער החלטות.

הרמה הבסיסית (root)

#df

הצומת ההתחלתי (התנאי הראשון) בעץ החלטות. לפי הסכמה, בתרשים, הבסיס נמצא בחלק העליון של עץ ההחלטות. לדוגמה:

עץ החלטות עם שני תנאים ושלושה עלים. התנאי ההתחלתי (x > 2) הוא השורש.

S

דגימה עם החלפה

#df

שיטה לבחירת פריטים מתוך קבוצה של פריטים מועמדים, שבה אפשר לבחור את אותו פריט כמה פעמים. הביטוי 'עם החלפה' מציין שלאחר כל בחירה, הפריט שנבחר מוחזר למאגר של הפריטים האפשריים. בשיטה ההפוכה, דגימה ללא החלפה, אפשר לבחור פריט מתאים רק פעם אחת.

לדוגמה, נניח שיש לכם את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באופן אקראי את fig כפריט הראשון. אם משתמשים במדגם עם החלפה, המערכת בוחרת את הפריט השני מהקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, זו אותה קבוצה כמו קודם, כך שהמערכת עשויה לבחור שוב את fig.

אם משתמשים במדגם ללא החלפה, אי אפשר לבחור שוב דגימה שנבחרה. לדוגמה, אם המערכת בוחרת באופן אקראי את fig כמדגם הראשון, לא ניתן לבחור שוב את fig. לכן, המערכת בוחרת את הדגימה השנייה מהקבוצה (המצומצמת) הבאה:

fruit = {kiwi, apple, pear, cherry, lime, mango}

כיווץ

#df

היפר-פרמטר ב-gradient boosting שקובע את רמת התאמה יתר. הצטמקות ב-gradient boosting דומה לשיעור הלמידה ב-gradient descent. הערך של 'צמצום' הוא ערך עשרוני בין 0.0 ל-1.0. ערך כוונון קטן יותר מפחית את ההתאמה היתרה יותר מערך כוונון גדול יותר.

פיצול

#df

בעץ החלטות, שם נוסף לתנאי.

מפצל

#df

במהלך האימון של עץ החלטות, התהליך (והאלגוריתם) שאחראים על מציאת התנאי הטוב ביותר בכל צומת.

T

test

#df

בעץ החלטות, שם נוסף לתנאי.

ערך סף (לעצי החלטות)

#df

בתנאי משויך-ציר, הערך שאליו מתבצעת ההשוואה של המאפיין. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

V

רמות החשיבות של המשתנים

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל מאפיין למודל.

לדוגמה, נניח שרוצים ליצור עץ החלטות שמעריך את מחירי הבתים. נניח שעץ ההחלטות הזה משתמש בשלושה מאפיינים: גודל, גיל וסגנון. אם קבוצת החשיבות של המשתנים לשלושת המאפיינים מחושבת כ-{size=5.8, age=2.5, style=4.7}, המשמעות היא שהמאפיין size חשוב יותר לעץ ההחלטות מאשר age או style.

יש מדדים שונים של מידת החשיבות של המשתנים, שיכולים לספק למומחים ב-ML מידע על היבטים שונים של המודלים.

W

חוכמת ההמונים

#df

הרעיון שחישוב הממוצע של הדעות או האומדנים של קבוצה גדולה של אנשים ('הקהל') מניב לעיתים קרובות תוצאות טובות להפתיע. לדוגמה, ניקח משחק שבו אנשים מנסים לנחש את מספר הסוכריות בקופסה גדולה. למרות שרוב ההשערות הבודדות יהיו לא מדויקות, הניסיון מראה שהממוצע של כל ההשערות קרוב באופן מפתיע למספר האמיתי של הסוכריות בקופסה.

אנסמבלים הם אנלוגיה תוכנתית של 'חוכמת ההמונים'. גם אם מודלים ספציפיים מנסים לחזות נתונים באופן לא מדויק, לרוב חישוב הממוצע של התחזיות של מודלים רבים מניב תחזיות טובות להפתיע. לדוגמה, יכול להיות שעץ החלטות ספציפי יניב חיזויים גרועים, אבל יער החלטות יניב לרוב חיזויים טובים מאוד.