Os modelos de floresta de decisão são compostos por árvores de decisão. Algoritmos de aprendizado de florestas de decisão (como florestas aleatórias) dependem, pelo menos em parte, do aprendizado de árvores de decisão.
Nesta seção do curso, você vai estudar um pequeno conjunto de dados de exemplo e aprender como uma única árvore de decisão é treinada. Nas próximas seções, você vai aprender como as árvores de decisão são combinadas para treinar florestas de decisão.
No YDF, use o aprendiz CART para treinar modelos de árvore de decisão individuais:
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
O modelo
Uma árvore de decisão é um modelo composto por uma coleção de "perguntas" organizadas hierarquicamente na forma de uma árvore. As perguntas geralmente são chamadas de condição, divisão ou teste. Usaremos o termo "condição" nesta classe. Cada nó não-folha contém uma condição, e cada nó folha contém uma previsão.
Árvores botânicas geralmente crescem com a raiz na parte de baixo. No entanto, as árvores de decisão geralmente são representadas com a raiz (o primeiro nó) na parte de cima.
Figura 1. Uma árvore de decisão de classificação simples. A legenda em verde não faz parte da árvore de decisão.
A inferência de um modelo de árvore de decisão é calculada encaminhando um exemplo da raiz (na parte de cima) para um dos nós de folha (na parte de baixo) de acordo com as condições. O valor da folha alcançada é a previsão da árvore de decisão. O conjunto de nós visitados é chamado de caminho de inferência. Por exemplo, considere os seguintes valores de atributo:
num_legs | num_eyes |
---|---|
4 | 2 |
A previsão seria dog. O caminho de inferência seria:
- num_legs ≥ 3 → Sim
- num_eyes ≥ 3 → Não
Figura 2. O caminho de inferência que culmina na folha *dog* no exemplo *{num_legs : 4, num_eyes : 2}*.
No exemplo anterior, as folhas da árvore de decisão contêm previsões de classificação. Ou seja, cada folha contém uma espécie de animal entre um conjunto de espécies possíveis.
Da mesma forma, as árvores de decisão podem prever valores numéricos ao rotular folhas com previsões regressivas (valores numéricos). Por exemplo, a árvore de decisão abaixo prevê uma pontuação numérica de fofura de um animal entre 0 e 10.
Figura 3. Uma árvore de decisão que faz previsões numéricas.