决策树:检查您的理解情况

本页面将为您提供一系列多选题练习,以便您巩固“训练决策树”单元中所学内容。

问题 1

使用精确数值分隔符将数值特征替换为其负值(例如,将值 +8 更改为 -8)会产生什么影响?
系统会学习相同的条件;只会切换正例/负例子项。
决策树的结构将完全不同。
系统会学习不同的条件,但决策树的整体结构将保持不变。

问题 2

哪两项回答最能描述仅测试 X 中一半(随机选择)候选阈值的影响?
信息增益会降低或保持不变。
信息增益将更高或相同。
最终的决策树不会提高训练准确性。
最终的决策树的测试准确性会更低。

问题 3

如果“信息增益”与“阈值”曲线具有多个局部最大值,会出现什么情况?
算法会选择全局最大值。
该算法会选择阈值值最小的局部极大值。
不可能存在多个局部极大值。

问题 4

计算以下分块的信息增益:

节点 正例数 反例数量
父节点 10 6
第一个子项 8 2
第二个子项 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189