Les forêts de décision sont les plus efficaces lorsque vous disposez d'un ensemble de données tabulaires (données que vous pouvez représenter dans une feuille de calcul, un fichier CSV ou une table de base de données). Les données tabulaires sont l'un des formats de données les plus courants. Les forêts de décision doivent être votre solution de référence pour les modéliser.
Tableau 1. Exemple d'ensemble de données tabulaires.
Nombre de segments | Nombre d'yeux | Poids (en kg) | Espèce (libellé) |
---|---|---|---|
2 | 2 | 12 | Pingouin |
8 | 6 | 0,1 | Araignée |
4 | 2 | 44 | Chien |
… | … | … | … |
Contrairement aux réseaux de neurones, les forêts d'arbres décisionnels consomment nativement les données tabulaires du modèle. Lorsque vous développez des forêts de décision, vous n'avez pas besoin d'effectuer les tâches suivantes:
- Effectuez un prétraitement, comme la normalisation des caractéristiques ou l'encodage one-hot.
- Effectuer une imputation (par exemple, remplacer une valeur manquante par
-1
).
Toutefois, les forêts de décision ne sont pas adaptées à la consommation directe de données non tabulaires (également appelées données non structurées), telles que des images ou du texte. Oui, il existe des solutions de contournement à cette limitation, mais les réseaux de neurones gèrent généralement mieux les données non structurées.
Performances
Les forêts de décision sont efficaces en termes d'échantillonnage. Autrement dit, les forêts de décision sont bien adaptées à l'entraînement sur de petits ensembles de données ou sur des ensembles de données où le ratio nombre de caractéristiques / nombre d'exemples est élevé (peut-être supérieur à 1). Même si les forêts d'arbres décisionnels sont efficaces en termes d'échantillonnage, comme tous les modèles de machine learning, elles fonctionnent mieux lorsque de nombreuses données sont disponibles.
Les forêts de décision génèrent généralement des inférences plus rapidement que les réseaux de neurones comparables. Par exemple, une forêt de décision de taille moyenne exécute l'inférence en quelques microsecondes sur un processeur moderne.