עצי החלטות: בדקו את הבנתכם

בדף הזה תתבקשו לענות על סדרה של תרגילים עם שאלות אמריקאיות בנושאים שנדונו ביחידה 'אימון של עצי החלטות'.

שאלה 1

מהן ההשפעות של החלפת המאפיינים המספריים בערכים השליליים שלהם (לדוגמה, שינוי הערך +8 ל-8) באמצעות המפריד המספרי המדויק?
המבנה של עץ ההחלטות יהיה שונה לגמרי.
המערכת תלמד תנאים שונים, אבל המבנה הכללי של עץ ההחלטות לא ישתנה.
התנאים יילמדו באותו אופן, רק הצאצאים החיוביים/השליליים ישתנו.

שאלה 2

אילו שתי תשובות מתארות בצורה הטובה ביותר את ההשפעה של בדיקה של מחצית ( שנבחרה באופן אקראי) מערכות הסף האפשריות ב-X?
בדיקת עץ ההחלטות הסופי תהיה פחות מדויקת.
לא תהיה לשיחה הסופית של עץ ההחלטות רמת דיוק אימון טובה יותר.
רווח המידע יהיה גבוה יותר או שווה.
רווח המידע יהיה נמוך יותר או שווה.

שאלה 3

מה יקרה אם לעקומה של 'שיפור המידע' לעומת 'סף' יהיו כמה ערכים מקסימליים מקומיים?
אי אפשר שיהיה יותר ממקסימום מקומי אחד.
האלגוריתם יבחר את הערך המקסימלי ברמת האתר.
האלגוריתם יבחר את הערך המקסימלי המקומי עם ערך הסף הקטן ביותר.

שאלה 4

חישוב הרווח המידעי של הפיצול הבא:

צומת מספר הדוגמאות החיוביות מספר הדוגמאות השליליות
צומת הורה 10 6
הילד או הילדה הראשון 8 2
הילד או הילדה השניים 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189