Arbres de décision: tester vos connaissances

Cette page vous invite à répondre à une série d'exercices à choix multiples sur le contenu abordé dans l'unité "Entraînement des arbres de décision".

Question 1

Quels sont les effets du remplacement des caractéristiques numériques par leurs valeurs négatives (par exemple, en remplaçant la valeur +8 par -8) avec le séparateur numérique exact ?
Différentes conditions seront apprises, mais la structure globale de l'arbre de décision restera la même.
La structure de l'arbre de décision sera complètement différente.
Les mêmes conditions seront apprises. Seuls les enfants positifs/négatifs seront modifiés.

Question 2

Quelles sont les deux réponses qui décrivent le mieux l'effet de ne tester que la moitié (sélectionnée au hasard) des valeurs de seuil candidates dans X ?
L'arbre de décision final n'aurait pas une meilleure justesse d'entraînement.
Le gain d'information serait supérieur ou égal.
Le gain d'information serait inférieur ou égal.
La précision des tests de l'arbre de décision final serait alors moins bonne.

Question 3

Que se passerait-il si la courbe "gain d'information" par rapport au "seuil" présentait plusieurs maxima locaux ?
L'algorithme sélectionnerait la valeur maximale globale.
Il est impossible d'avoir plusieurs maxima locaux.
L'algorithme sélectionnerait les maxima locaux avec la valeur de seuil la plus faible.

Question 4

Calculez le gain d'information de la division suivante:

Nœud Nombre d'exemples positifs Nombre d'exemples négatifs
nœud parent 10 6
premier enfant 8 2
deuxième enfant 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189