Voici un bref résumé de ce que vous avez appris dans le cours:
- Un arbre de décision est un modèle
composé d'un ensemble de
des conditions organisées
hiérarchiquement sous la forme d’un arbre. Les conditions entrent dans différentes
catégories:
- Une ligne alignée sur l'axe implique une seule caractéristique. Un oblique implique plusieurs caractéristiques.
- Un binaire comporte deux options résultats. Un fichier non binaire condition comporte plus de deux résultats possibles.
- Pour entraîner un arbre de décision, vous devez rechercher la meilleure condition chaque nœud. La routine splitter utilise des critères tels que les informations de gain de poids ou Gini pour déterminer le meilleur modèle .
- Une forêt de décision est un mode composé de plusieurs arbres de décision. La prédiction d'une forêt de décision est l'agrégation des prédictions de ses arbres de décision.
- Une forêt aléatoire est un ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné bruit aléatoire spécifique.
- Le bagging est une technique qui consiste à chaque arbre de décision de la forêt aléatoire est entraîné sur un sous-ensemble différent d'exemples.
- Les forêts d'arbres décisionnels ne nécessitent pas d'ensemble de données de validation. Au lieu de cela, les valeurs les plus les forêts utilisent une technique appelée out-of-bag-evaluation pour évaluer la qualité du modèle.
- Un gradient boosté (décision) arbre est un type de forêt de décision entraînée par des ajustements itératifs à partir d'entrées arbres de décision. Une valeur appelée La rétrécissement contrôle la vitesse à appris par un arbre de décision à boosting de gradient et dans quelle mesure le surapprentissage.
Références
- Approximation de la fonction gloutonne: un boosting de gradient d'entraînement, J. Friedman
- Les éléments des statistiques Apprentissage, Trevor Hastie. Chapitre 10.
- Modèles généralisés boostés: un guide sur la technologie gbm package, G. Ridgeway