Tipos de condição

Esta unidade se concentra em diferentes tipos de condições usadas para construir decisões árvores.

Condições de alinhamento ao eixo x oblíquo

Uma condição alinhada ao eixo envolve apenas um único atributo. Uma oblíqua condição envolve vários atributos. Por exemplo, o código a seguir condição alinhada ao eixo:

num_legs ≥ 2

No entanto, esta é uma condição oblíqua:

num_legs ≥ num_fingers

Muitas vezes, as árvores de decisão são treinadas apenas com condições alinhadas ao eixo. No entanto, divisões oblíquas são mais poderosas porque podem expressar ações desenhos. Em alguns casos, divisões oblíquas produzem melhores resultados, mas às custas custos maiores de treinamento e inferência.

Código YDF
Na YDF, por padrão, as árvores de decisão são treinadas com a condição de alinhamento ao eixo. É possível ativar árvores oblíquas de decisão com a parâmetro split_axis="SPARSE_OBLIQUE".

A condição de alinhamento ao eixo é "num_legs >= 3". A condição oblíqua é
  "num_legs + peso * 5 >= 12".

Figura 4. Exemplos de uma condição de alinhamento ao eixo e uma condição oblíqua. .

 

Representar graficamente as duas condições anteriores produz este espaço de atributos separação:

Um gráfico de peso vs. num_legs. A condição de alinhamento ao eixo
  ignora o peso e, portanto, é apenas uma linha vertical. O oblíquo
  mostra uma linha com uma inclinação negativa.

Figura 5. Separação do espaço de atributos para as condições na Figura 4. .

 

Condições binárias vs. não binárias

Condições com dois resultados possíveis (por exemplo, verdadeiro ou falso) são chamadas condições binárias. As árvores de decisão que contêm apenas condições binárias são chamadas árvores de decisão binárias.

As condições não binárias têm mais de dois resultados possíveis. Portanto, condições não binárias têm mais poder discriminativo do que as condições binárias. Decisões que contêm uma ou mais condições não binárias são chamadas de decisão não binária árvores.

Uma comparação de árvores de decisão binárias e não binárias. A decisão binária
  árvore contém duas condições binárias: a árvore de decisão não binária
  contém uma condição não binária.

Figura 6: árvores de decisão binárias versus não binárias.

 

Condições com excesso de energia também têm mais chances de overfitting. Por isso, florestas de decisão geralmente usam árvores de decisão binárias, então este curso vai se concentrar nelas.

O tipo mais comum de condição é a condição de limite expressa como:

featurethreshold

Exemplo:

num_legs ≥ 2

Existem outros tipos de condições. Veja a seguir outros tipos de condições binárias:

 

Tabela 2. Tipos comuns de condições binárias. .

Nome Condição Exemplo
condição de limite $\mathrm{feature}_i \geq \mathrm{threshold}$ $\mathrm{num\_legs} \geq 2$
condição de igualdade $\mathrm{feature}_i = \mathrm{value}$ $\mathrm{species} = ``gato"$
condição inserida $\mathrm{feature}_i \in \mathrm{collection}$ $\mathrm{species} \in \{``cat", ``dog", ``bird"\}$
condição oblíqua $\sum_{i} \mathrm{weight}_i \mathrm{feature}_i \geq \mathrm{threshold}$ US$ 5 \ \mathrm{num\_legs} + 2 \ \mathrm{num\_eyes} \geq 10$
recurso ausente $\mathrm{feature}_i \mathrm{is} \mathrm{Ausente}$ $\mathrm{num\_legs} \mathrm{é} \mathrm{Ausente}$