Évaluation hors échantillon

Les forêts aléatoires ne nécessitent pas d'ensemble de données de validation. La plupart des forêts aléatoires utilisent une technique appelée évaluation hors échantillon (évaluation OOB) pour évaluer la qualité du modèle. L'évaluation hors bande traite l'ensemble d'entraînement comme s'il s'agissait de l'ensemble de test d'une validation croisée.

Comme indiqué précédemment, chaque arbre de décision d'une forêt aléatoire est généralement entraîné sur environ 67% des exemples d'entraînement. Par conséquent, chaque arbre de décision ne voit pas environ 33% des exemples d'entraînement. L'idée de base de l'évaluation hors bande est la suivante:

  • Évaluer la forêt d'arbres décisionnels sur l'ensemble d'entraînement.
  • Pour chaque exemple, n'utilisez que les arbres de décision qui ne l'ont pas vu pendant l'entraînement.

Le tableau suivant illustre l'évaluation hors échantillon d'une forêt d'arbres décisionnels avec trois arbres de décision entraînés sur six exemples. (Oui, il s'agit de la même table que dans la section "Bagging".) Le tableau indique quel arbre de décision est utilisé avec quel exemple lors de l'évaluation hors bande.

Tableau 7. Évaluation hors bande : les chiffres représentent le nombre de fois où un exemple d'entraînement donné est utilisé pendant l'entraînement de cet exemple.

Exemples d'entraînement Exemples d'évaluation hors bande
#1 #2 #3 #4 #5 #6
ensemble de données d'origine 1 1 1 1 1 1
arbre de décision 1 1 1 0 2 1 1 #3
arbre de décision 2 3 0 1 0 2 0 2, 4 et 6
arbre de décision 3 0 1 3 1 0 1 1 et 5

Dans l'exemple présenté dans le tableau 7, les prédictions hors échantillon pour l'exemple d'entraînement 1 seront calculées avec l'arbre de décision 3 (puisque les arbres de décision 1 et 2 ont utilisé cet exemple pour l'entraînement). En pratique, sur un ensemble de données de taille raisonnable et avec quelques arbres de décision, tous les exemples ont une prédiction hors de l'ensemble.

Code YDF
Dans YDF, l'évaluation hors échantillon est disponible dans les journaux d'entraînement si le modèle est entraîné avec compute_oob_performances=True.

L'évaluation hors bande est également efficace pour calculer l'importance des variables de permutation pour les modèles de forêt d'arbres aléatoires. Comme indiqué dans la section Importance des variables, l'importance des variables de permutation mesure l'importance d'une variable en mesurant la baisse de la qualité du modèle lorsque cette variable est mélangée. L'importance des variables de permutation hors champ de la forêt aléatoire est une importance de variable de permutation calculée à l'aide de l'évaluation hors champ.

Code YDF
Dans YDF, les importances des variables de permutation hors bande sont disponibles dans les journaux d'entraînement si le modèle est entraîné avec compute_oob_variable_importances=True.