עצי החלטות: בדקו את הבנתכם

בדף הזה תתבקשו לענות על סדרה של תרגילים עם שאלות אמריקאיות בנושאים שנדונו ביחידה 'אימון של עצי החלטות'.

שאלה 1

מהן ההשפעות של החלפת המאפיינים המספריים בערכים השליליים שלהם (לדוגמה, שינוי הערך +8 ל-8) באמצעות המפריד המספרי המדויק?
המערכת תלמד תנאים שונים, אבל המבנה הכללי של עץ ההחלטות לא ישתנה.
המבנה של עץ ההחלטות יהיה שונה לגמרי.
התנאים יילמדו באותו אופן, רק הצאצאים החיוביים/השליליים ישתנו.

שאלה 2

אילו שתי תשובות מתארות בצורה הטובה ביותר את ההשפעה של בדיקה של מחצית ( שנבחרה באופן אקראי) מערכות הסף האפשריות ב-X?
בדיקת עץ ההחלטות הסופי תהיה פחות מדויקת.
רווח המידע יהיה נמוך יותר או שווה.
רווח המידע יהיה גבוה יותר או שווה.
לא תהיה לשיחה הסופית של עץ ההחלטות רמת דיוק אימון טובה יותר.

שאלה 3

מה יקרה אם לעקומה של 'שיפור המידע' לעומת 'סף' יהיו כמה ערכים מקסימליים מקומיים?
האלגוריתם יבחר את הערך המקסימלי ברמת האתר.
האלגוריתם יבחר את הערך המקסימלי המקומי עם ערך הסף הקטן ביותר.
אי אפשר שיהיה יותר ממקסימום מקומי אחד.

שאלה 4

חישוב הרווח המידעי של הפיצול הבא:

צומת מספר הדוגמאות החיוביות מספר הדוגמאות השליליות
צומת הורה 10 6
הילד או הילדה הראשון 8 2
הילד או הילדה השניים 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189