Voici un bref résumé de ce que vous avez appris dans ce cours:
- Un arbre de décision est un modèle composé d'un ensemble de conditions organisées hiérarchiquement en forme d'arbre. Les conditions se répartissent en plusieurs catégories :
- Une condition alignée sur l'axe ne concerne qu'une seule caractéristique. Une condition oblique implique plusieurs éléments géographiques.
- Une condition binaire a deux résultats possibles. Une condition non binaire a plus de deux résultats possibles.
- L'entraînement d'un arbre de décision consiste à rechercher la meilleure condition à chaque nœud. La routine de séparateur utilise des métriques telles que le gain d'information ou le Gini pour déterminer la meilleure condition.
- Une forêt d'arbres de décision est un mode composé de plusieurs arbres de décision. La prédiction d'une forêt d'arbres de décision est l'agrégation des prédictions de ses arbres de décision.
- Une forêt d'arbres aléatoires est un ensemble d'arbres de décision dans lesquels chaque arbre de décision est entraîné avec un bruit aléatoire spécifique.
- Le bagging est une technique dans laquelle chaque arbre de décision de la forêt d'arbres décisionnels est entraîné sur un sous-ensemble différent d'exemples.
- Les forêts aléatoires ne nécessitent pas d'ensemble de données de validation. À la place, la plupart des forêts aléatoires utilisent une technique appelée out-of-bag-evaluation pour évaluer la qualité du modèle.
- Un arbre de décision à boosting de gradient est un type de forêt d'arbres de décision entraîné par des ajustements itératifs à partir d'arbres de décision d'entrée. Une valeur appelée rétrécissement contrôle le taux d'apprentissage d'un arbre de décision à boosting de gradient et le degré auquel il pourrait surajuster.
Références
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie Chapitre 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway