Arbres de décision: tester vos connaissances

Cette page vous invite à répondre à une série d'exercices à choix multiples sur le contenu abordé dans l'unité "Entraînement des arbres de décision".

Question 1

Quels sont les effets du remplacement des caractéristiques numériques par leurs valeurs négatives (par exemple, en remplaçant la valeur +8 par -8) avec le séparateur numérique exact ?
La structure de l'arbre de décision sera complètement différente.
Différentes conditions seront apprises, mais la structure globale de l'arbre de décision restera la même.
Les mêmes conditions seront apprises. Seuls les enfants positifs/négatifs seront modifiés.

Question 2

Quelles sont les deux réponses qui décrivent le mieux l'effet de ne tester que la moitié (sélectionnée au hasard) des valeurs de seuil candidates dans X ?
Le gain d'information serait supérieur ou égal.
La précision des tests de l'arbre de décision final serait alors moins bonne.
L'arbre de décision final n'aurait pas une meilleure justesse d'entraînement.
Le gain d'information serait inférieur ou égal.

Question 3

Que se passerait-il si la courbe "gain d'information" par rapport au "seuil" présentait plusieurs maxima locaux ?
L'algorithme sélectionnerait les maxima locaux avec la valeur de seuil la plus faible.
L'algorithme sélectionnerait la valeur maximale globale.
Il est impossible d'avoir plusieurs maxima locaux.

Question 4

Calculez le gain d'information de la division suivante:

Nœud Nombre d'exemples positifs Nombre d'exemples négatifs
nœud parent 10 6
premier enfant 8 2
deuxième enfant 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189