Árvores de decisão: teste sua compreensão

Nesta página, você vai responder a uma série de exercícios de múltipla escolha sobre o material discutido na unidade "Árvores de decisão de treinamento".

Pergunta 1

Quais são os efeitos da substituição dos recursos numéricos pelos valores negativos deles (por exemplo, mudar o valor +8 para -8) com o divisor numérico exato?
Diferentes condições serão aprendidas, mas a estrutura geral da árvore de decisão vai permanecer a mesma.
As mesmas condições serão aprendidas. Apenas as crianças positivas/negativas serão trocadas.
A estrutura da árvore de decisão será completamente diferente.

Pergunta 2

Quais duas respostas melhor descrevem o efeito de testar apenas metade (selecionada aleatoriamente) dos valores de limite de candidato em X?
O ganho de informações seria menor ou igual.
A árvore de decisão final teria uma precisão de teste pior.
A árvore de decisão final não teria uma precisão de treinamento melhor.
O ganho de informações seria maior ou igual.

Pergunta 3

O que aconteceria se a curva de "ganho de informação" em relação ao "limite" tivesse vários máximos locais?
É impossível ter vários máximos locais.
O algoritmo seleciona o máximo global.
O algoritmo selecionaria os máximos locais com o menor valor de limite.

Pergunta 4

Calcule o ganho de informação da seguinte divisão:

Nº de exemplos positivos # de exemplos negativos
nó pai 10 6
primeira criança 8 2
segundo filho 2 4
# Positive label distribution
p_parent = 10 / (10+6) # = 0.625
p_child_1 = 8 / (8+2) # = 0.8
p_child_2 = 2 / (2+4) # = 0.3333333

# Entropy
h_parent = -p_parent * log(p_parent) - (1-p_parent) * log(1-p_parent) # = 0.6615632
h_child_1 = ... # = 0.5004024
h_child_2 = ... # = 0.6365142

# Ratio of example in the child 1
s = (8+2)/(10+6)
f_final = s * h_child_1 + (1-s) * h_child_2 # = 0.5514443

information_gain = h_parent - f_final # = 0.1101189