מילון מונחים ללמידת מכונה: יערות החלטה

דף זה מכיל מילון מונחים של יער החלטות. כאן אפשר למצוא את כל המונחים במילון המונחים.

A

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות שבה כל עץ החלטות מתייחס רק לקבוצת משנה אקראית של מאפיינים אפשריים בלמידת התנאי. באופן כללי, מתבצעת דגימה של קבוצת משנה שונה של תכונות לכל צומת. לעומת זאת, כשמבצעים אימון של עץ החלטות ללא דגימת מאפיינים, כל התכונות האפשריות מובאות בחשבון בכל צומת.

תנאי ביישור לציר

#df

בעץ החלטות, תנאי שכולל רק תכונה אחת. לדוגמה, אם אזור הוא תכונה, אז זהו תנאי שמיישר לציר:

area > 200

הניגודיות למצב משופע.

B

תיקים

#df

שיטה לאימון אנסמבל שבו כל מודל מאורגן בקבוצת משנה אקראית של דוגמאות אימון נדגם עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומנו לעסוק בענייני תיקים.

המונח bagging הוא קיצור של bootstrap agging.

תנאי בינארי

#df

בעץ החלטות, תנאי שיש לו רק שתי תוצאות אפשריות – בדרך כלל yes או no. לדוגמה, זהו תנאי בינארי:

temperature >= 100

מנוגד לתנאי לא בינארי.

C

מצב

#df

בעץ החלטות, כל צומת שמעריך ביטוי. לדוגמה, החלק הבא בעץ החלטות מכיל שני תנאים:

עץ החלטות שמורכב משני תנאים: (x > 0) ו-(y > 0).

תנאי נקרא גם פיצול או בדיקה.

מצב הניגודיות עם עלה.

לעיונך:

D

יער החלטות

#df

מודל שנוצר מכמה עצי החלטות. יער החלטות מבצע חיזוי על ידי צבירת התחזיות של עצי ההחלטות שלו. סוגים פופולריים של יערות הם יערות אקראיים ועצים משודרגים מדורגים.

עץ החלטות

#df

מודל של למידה מונחית שמורכב מקבוצה של conditions וconditions שמאורגנים בהיררכיה. לדוגמה, זהו עץ החלטות:

עץ החלטות שמורכב מארבעה תנאים שמסודרים בהיררכיה, ומובילים לחמישה עלים.

E

אנטרופיה

#df

ב תורת המידע, תיאור של מידת בלתי צפויה של התפלגות ההסתברות, ולחלופין, אנטרופיה מוגדרת גם ככמות המידע שמכילה כל דוגמה. להתפלגות יש את האנטרופיה הגבוהה ביותר האפשרית, כאשר קיימת סבירות שווה לכל הערכים של משתנה אקראי.

באנטרופיה של קבוצה עם שני ערכים אפשריים "0" ו-"1" (לדוגמה, התוויות בבעיה של סיווג בינארי) יש את הנוסחה הבאה:

  H = -p log p - q log q = -p log p - (1-p) * יומן (1-p)

איפה:

  • H היא האנטרופיה.
  • p הוא השבר של דוגמאות "1".
  • q הוא השבר של דוגמאות "0". חשוב לשים לב ש-q = (1 - p)
  • log הוא בדרך כלל יומן2. במקרה הזה, יחידת האנטרופיה היא קצת.

לדוגמה, נניח כי:

  • 100 דוגמאות מכילות את הערך '1'
  • 300 דוגמאות מכילות את הערך "0"

לכן, ערך האנטרופיה הוא:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ביט לכל דוגמה

עבור קבוצה מאוזנת לחלוטין (לדוגמה, 200 "0" ו-200 "1") תופיע אנטרופיה של 1.0 ביט לכל דוגמה. כשקבוצה לא מאוזנת, האנטרופיה שלה נעה לכיוון 0.0.

בעצי החלטה, האנטרופיה עוזרת לנסח מידע כדי לעזור למפצל לבחור את התנאים במהלך הצמיחה של עץ החלטות הקשורות לסיווג.

השוואה בין האנטרופיה לבין:

לעיתים קרובות, האנטרופיה נקראת האנטרופיה של שאנחנון.

F

חשיבות התכונות

#df

מילה נרדפת לחשיבות משתנה.

G

ג'יני טופורה

#df

מדד שדומה לאנטרופיה. מפצלים משתמשים בערכים שנוצרו על בסיס תופעת הטוהר של הגיני או אנטרופיה כדי להרכיב תנאים לסיווג עץ ההחלטה. רווח מידע נגזר מאנטרופיה. אין מונח מקביל מקובל שמקובל בתחום שנגזר ממוצר ג'יני. עם זאת, מדד ללא שם חשוב באותה מידה כמו צבירת מידע.

'טעיות גיני' נקראת גם אינדקס ג'יני, או פשוט ג'יני.

עצים מוגמרים (החלטה) הדרגתית (GBT)

#df

סוג של יער החלטות שבו:

שיפור הדרגתי

#df

אלגוריתם לאימון שבו מודלים חלשים מאומנים כדי לשפר את האיכות (להפחית את ההפסד) של מודל חזק באופן איטרטיבי. לדוגמה, מודל חלש יכול להיות מודל של עץ החלטות לינארי או מודל קטן. המודל החזקה הופך לסכום הכולל של כל המודלים החלשים שהוכשרו לכך בעבר.

בצורה הפשוטה ביותר של הגדלה הדרגתית, בכל איטרציה, מודל חלש מאומן לחזות את ההדרגתיות של אובדן המודל החזקה. לאחר מכן, הפלט החזקה של המודל מעודכן על ידי חיסור ההדרגתיות החזויה, בדומה לירידה בהדרגתיות.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

איפה:

  • $F_{0}$ הוא המודל הטוב ביותר הראשוני.
  • $F_{i+1}$ הוא המודל החזקה הבא.
  • $F_{i}$ הוא המודל החזקה הנוכחי.
  • $\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא shrinkage, שדומה לקצב הלמידה בירידה הדרגתית.
  • $f_{i}$ הוא המודל החלש שעבר אימון לחזות את ההדרגתיות של אובדן הנקודות של $F_{i}$.

גרסאות מודרניות של שיפור הדרגתי כוללות גם את הנגזרת השנייה (הסיאנית) של האובדן בחישוב שלהן.

עצי החלטה משמשים בדרך כלל כמודלים חלשים לשיפור ההדרגתיות. למידע נוסף, ראו עצים עם הגדלה הדרגתית (החלטה).

I

נתיב הסקת מידע

#df

בעץ החלטות, במהלך הֶקֵּשׁ, המסלול שדוגמה מסוימת לוקחת מהרמה הבסיסית לתנאים אחרים, שמסתיים בעלה. לדוגמה, בעץ ההחלטות הבא, החיצים העבים יותר מציגים את נתיב ההסקה לדוגמה עם ערכי התכונות הבאים:

  • x = 7
  • y = 12
  • z = -3

נתיב ההסקה באיור הבא עובר דרך שלושה תנאים לפני ההגעה לערך העלה (Zeta).

עץ החלטה שמורכב מארבעה תנאים ומחמישה עלים.
          התנאי הבסיסי הוא (x > 0). מאחר שהתשובה היא כן, נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
          מאחר שהתשובה היא כן, נתיב ההסקה עובר
          לתנאי הבא (z > 0). מכיוון שהתשובה היא 'לא', נתיב ההסקה עובר לצומת הטרמינל שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מציגים את נתיב ההסקה.

צבירת מידע

#df

ביערות ההחלטה, ההפרש בין האנטרופיה של צומת לבין הסכום המשוקלל (לפי מספר דוגמאות) של האנטרופיה של הצמתים הצאצאים שלו. האנטרופיה של צומת היא האנטרופיה של הדוגמאות באותו צומת.

לדוגמה, נבחן את ערכי האנטרופיה הבאים:

  • של צומת הורה = 0.6
  • של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
  • של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

לכן 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת צאצא אחר. לכן:

  • סכום האנטרופיה המשוקלל של צומתי צאצא = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

אם כך, הרווח המידע יהיה:

  • גידול מידע = אנטרופיה של צומת הורה - סכום אנטרופיה משוקלל של צומתי צאצא
  • צבירת מידע = 0.6 - 0.14 = 0.46

רוב הפיצולים נועדו ליצור תנאים כדי לקבל מידע מקסימלי.

תנאי מוגדר

#df

בעץ החלטות, זהו מצב שבודק אם יש פריט אחד בקבוצה של פריטים. לדוגמה, זהו תנאי מוגדר (in-set):

  house-style in [tudor, colonial, cape]

כמו כן, אם הערך של תכונה בסגנון בית הוא tudor או colonial או cape, הערך של התנאי הזה יהיה 'כן'. אם הערך של מאפיין סגנון הבית הוא משהו אחר (למשל, ranch), הערך של התנאי הזה יהיה 'לא'

בדרך כלל תנאים מוגדרים מובילים לקבלת החלטות יעילות יותר מאשר תנאים שבודקים תכונות של קידוד חד-פעמי.

L

עלה

#df

כל נקודת קצה בעץ החלטות. בשונה ממצב, עלה לא מבצע בדיקה. במקום זאת, עלה הוא חיזוי אפשרי. עלה הוא גם הצומת הטרמינל של נתיב הסקת מסקנות.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

צ'

צומת (עץ החלטות)

#df

בעץ החלטות, כל מצב או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

תנאי א-בינארי

#df

מצב שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הא-בינארי הבא מכיל שלוש תוצאות אפשריות:

תנאי (number_of_legs = ?) שמוביל לשלוש תוצאות אפשריות. תוצאה אחת (number_of_legs = 8) מובילה לעלה בשם עכביש. תוצאה שנייה (number_of_legs = 4) מובילה
          לעלה בשם כלב. תוצאה שלישית (number_of_legs = 2) מובילה
          לעלה בשם פינגווין.

O

תנאי אלכסוני

#df

בעץ החלטות, תנאי שכולל יותר מתכונה. לדוגמה, אם גובה ורוחב הם שתי תכונות, התנאי הבא הוא הטיה:

  height > width

הניגודיות לתנאי יישור לציר.

הערכה "מחוץ לתיק" (הערכת OOB)

#df

מנגנון להערכת האיכות של יער החלטות באמצעות בדיקה של כל עץ החלטות מול הדוגמאות לא שבהן נעשה שימוש במהלך האימון של עץ ההחלטות הזה. לדוגמה, בתרשים הבא שימו לב שהמערכת מאמנת כל עץ החלטות על כשני שליש מהדוגמאות, ואז מבצעת הערכה ביחס לשליש מהדוגמאות.

יער החלטות שמורכב משלושה עצי החלטה.
          עץ החלטות אחד מתאמן על שני שליש מהדוגמאות,
          ואז משתמש בשליש הנותר להערכת OOB.
          עץ החלטות שני מתאמן על שני שליש מהדוגמאות
 השונים מזה של עץ ההחלטות הקודם, ולאחר מכן
 הוא משתמש בשליש שונה להערכת OOB לעומת עץ ההחלטות הקודם.

הערכה מחוץ לתיק היא אומדן יעיל ושמרני מבחינה חישובית של מנגנון האימות צולב. באימות צולב, מתבצע אימון של מודל אחד לכל סבב של אימות צולב (לדוגמה, 10 מודלים מאומנים באימות צולב עם 10 קיפולים). עם הערכת OOB, מתבצע אימון של מודל יחיד. מכיוון שקיבוץ הנתונים מונע חלק מהנתונים מכל עץ במהלך האימון, הערכת ה-OOB יכולה להשתמש בנתונים האלה כדי להעריך אימות צולב.

P

חשיבות משתנה תמורה

#df

סוג של חשיבות משתנה לבדיקת העלייה במספר השגיאות בחיזוי של מודל אחרי שינוי ערכי המאפיין. החשיבות של משתנה התמורה היא מדד אגנוסטי של מודל.

R

יער אקראי

#df

מתחם של עצי החלטה שבהם כל עץ החלטות מאומן לפי רעש אקראי ספציפי, כמו bagging.

יערות אקראיים הם סוג של יער החלטות.

הרמה הבסיסית (root)

#df

הצומת (התנאי הראשון) בעץ החלטות. לפי המוסכמה, תרשימים מציבים את השורש בראש עץ ההחלטות. לדוגמה:

עץ החלטות עם שני תנאים ושלושה עלים. התנאי ההתחלתי (x > 2) הוא הבסיס.

S

דגימה עם החלפה

#df

שיטה לבחירת פריטים מתוך קבוצה של פריטים אפשריים שבהם אפשר לבחור את אותו פריט כמה פעמים. המשמעות של הביטוי 'עם החלפה' היא שאחרי כל בחירה, הפריט שנבחר מוחזר למאגר הפריטים האפשריים. בשיטה ההפוכה, דגימה ללא החלפה, אפשר לבחור פריט אחד בלבד פעם אחת בלבד.

לדוגמה, נניח שערכת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת את fig באופן אקראי כפריט הראשון. אם משתמשים בדגימה עם החלפה, המערכת תבחר את הפריט השני מתוך הקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, זו אותה קבוצה כמו קודם, אז המערכת עשויה לבחור שוב את fig.

אם משתמשים בדגימה ללא החלפה, אי אפשר לבחור שוב את הדגימה אחרי שבוחרים אותה. לדוגמה, אם המערכת בוחרת את fig באופן אקראי בתור הדגימה הראשונה, לא ניתן יהיה לבחור שוב את fig. לכן המערכת בוחרת את הדגימה השנייה מתוך הקבוצה הבאה (המוקטנת):

fruit = {kiwi, apple, pear, cherry, lime, mango}

כיווץ

#df

היפר-פרמטר בשיפור הדרגתי ששולט בהתאמת יתר. כיווץ בהגדלה הדרגתית דומה לקצב הלמידה בירידה הדרגתית. הכיווץ הוא ערך עשרוני בין 0.0 ל-1.0. ערך כיווץ נמוך מפחית את התאמת היתר מאשר ערך כיווץ גדול יותר.

פיצול

#df

בעץ החלטות, שם אחר לתנאי.

מפצל

#df

בזמן אימון של עץ החלטות, התרחיש (והאלגוריתם) אחראי לזיהוי המצב הטוב ביותר בכל צומת.

T

test

#df

בעץ החלטות, שם אחר לתנאי.

סף (עבור עצי החלטה)

#df

בתנאי מותאם לציר, הערך שאליו נערכת השוואה של תכונה. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

V

חשיבות משתנה

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל תכונה למודל.

לדוגמה, כדאי להשתמש בעץ החלטות שמספק אומדנים של מחירי בתים. נניח שעץ ההחלטות הזה כולל שלוש תכונות: גודל, גיל וסגנון. אם קבוצה של חשיבות שונה עבור שלוש התכונות מחושבת בתור {size=5.8, age=2.5, style=4.7}, הגודל חשוב יותר לעץ ההחלטות מאשר גיל או סגנון.

יש מדדים שונים לחשיבות משתנה, שבעזרתם מומחי למידת מכונה יכולים להכיר היבטים שונים של המודלים.

W

חוכמת הקהל

#df

הרעיון שחישוב ממוצע של הדעות או ההערכות של קבוצה גדולה של אנשים ("הקהל") מניב לרוב תוצאות טובות ומפתיעות. לדוגמה, ניקח לדוגמה משחק שבו אנשים מנחשים את מספר סוכריות הג'לי שארוזות בצנצנת גדולה. אף על פי שרוב הניחושים האישיים לא יהיו מדויקים, הממוצע של כל הניחושים הוכח באופן מפתיע שהוא קרוב באופן מפתיע למספר בפועל של סוכריות הג'לי בצנצנת.

הרכבים הם אנלוגיה של חוכמת ההמונים. גם אם מודלים נפרדים מספקים חיזויים בלתי מדויקים במיוחד, ממוצע התחזיות של מודלים רבים יוצר בדרך כלל חיזויים טובים ומפתיעים. לדוגמה, למרות שעץ החלטות מסוים עשוי לספק חיזויים גרועים, יער ההחלטות לרוב מספק חיזויים טובים מאוד.