Confira um breve resumo do que você aprendeu no curso:
- Uma árvore de decisão é um modelo
composto por uma coleção de
condições organizadas
hierarquicamente na forma de uma árvore. As condições se dividem em várias
categorias:
- Uma condição alinhada ao eixo envolve apenas um único elemento. Uma condição oblíqua envolve vários recursos.
- Uma condição binária tem dois resultados possíveis. Uma condição não binária tem mais de dois resultados possíveis.
- Treinar uma árvore de decisão envolve a busca da melhor condição em cada nó. A rotina splitter usa métricas como ganho de informação ou Gini para determinar a melhor condição.
- Uma floresta de decisão é um modo feito de várias árvores de decisão. A previsão de uma floresta de decisão é a agregação das previsões das árvores de decisão.
- Uma floresta aleatória é um conjunto de árvores de decisão em que cada árvore de decisão é treinada com um ruído aleatório específico.
- Bagging é uma técnica em que cada árvore de decisão na floresta aleatória é treinada em um subconjunto diferente de exemplos.
- As florestas aleatórias não exigem um conjunto de dados de validação. Em vez disso, a maioria das florestas aleatórias usa uma técnica chamada out-of-bag-evaluation para avaliar a qualidade do modelo.
- Uma árvore de decisão (gradiente) aprimorada é um tipo de floresta de decisão treinada com ajustes iterativos de árvores de decisão de entrada. Um valor chamado encolhimento controla a taxa em que uma árvore de gradiente otimizada (de decisão) aprende e o grau em que ela pode ter ajuste excessivo.
Referências
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. Capítulo 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway