Árboles de decisiones: Comprueba tus conocimientos

En esta página, se te propone responder una serie de ejercicios de opción múltiple sobre el material que se analizó en la unidad "Entrenamiento de árboles de decisión".

Pregunta 1

¿Cuáles son los efectos de reemplazar los atributos numéricos por sus valores negativos (por ejemplo, cambiar el valor de +8 a -8) con el divisor numérico exacto?
La estructura del árbol de decisión será completamente distinta.
Se aprenderán diferentes condiciones, pero la estructura general del árbol de decisión seguirá siendo la misma.
Se aprenderán las mismas condiciones; solo se cambiarán los elementos secundarios positivos o negativos.

Pregunta 2

¿Qué dos respuestas describen mejor el efecto de probar solo la mitad (seleccionada al azar) de los valores de umbral candidatos en X?
La ganancia de información sería mayor o igual.
El árbol de decisión final tendría una peor precisión de prueba.
La ganancia de información sería menor o igual.
El árbol de decisión final no tendría una mejor precisión de entrenamiento.

Pregunta 3

¿Qué sucedería si la curva de “ganancia de información” en comparación con la “curva de umbral” tuviera varios máximos locales?
El algoritmo seleccionaría el máximo global.
El algoritmo seleccionaría los máximos locales con el valor de umbral más pequeño.
Es imposible tener varios máximos locales.

Pregunta 4

Calcula la ganancia de información de la siguiente división:

Nodo Cantidad de ejemplos positivos Cantidad de ejemplos negativos
nodo superior 10 6
primer hijo o hija 8 2
segundo hijo o hija 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189