ディシジョン ツリー: 理解度を確認する

このページでは、「ディシジョン ツリーのトレーニング」ユニットで説明した内容に関する一連の多肢選択式演習に取り組みます。

問題 1

正確な数値分割ツールで数値特徴量を負の値に置き換えると(たとえば、値 +8 を -8 に変更すると)、どのような影響がありますか?
学習される条件は異なりますが、ディシジョン ツリーの全体的な構造は同じです。
ディシジョン ツリーの構造は完全に異なります。
同じ条件が学習され、ポジティブ/ネガティブの子のみが切り替わります。

問題 2

X の候補しきい値の半分(ランダムに選択)のみをテストした場合の効果を最もよく表す 2 つの回答はどれですか。
最終的なディシジョン ツリーでは、テストの精度が低下します。
情報量の増加は同等かそれ以下になります。
情報量の増加は同等以上になります。
最終的なディシジョン ツリーでは、トレーニング精度が向上しません。

問題 3

「情報量の増加」と「しきい値」の曲線に複数の局所的な最大値がある場合、どうなりますか。
アルゴリズムはグローバル最大値を選択します。
局所極大値が複数あることはできません。
アルゴリズムは、しきい値が最も小さい局所的な最大値を選択します。

問題 4

次の分割の情報量の増加を計算します。

ノード 正例の数 ネガティブ サンプルの数
親ノード 10 6
第一子 8 2
2 人目の子ども 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189