Évaluation lors de la sortie d'un bagage

Les forêts d'arbres décisionnels ne nécessitent pas d'ensemble de données de validation. La plupart des forêts d'arbres décisionnels utilisent la technique appelée out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) pour évaluer la qualité du modèle. L'évaluation OOB traite l'ensemble d'entraînement comme s'il se trouvait sur l'ensemble de test d'une validation croisée.

Comme expliqué précédemment, chaque arbre de décision d'une forêt aléatoire est généralement entraîné sur environ 67% des exemples d'entraînement. Par conséquent, chaque arbre de décision ne voit pas environ 33% des exemples d'entraînement. Le principe de l'évaluation OOB est le suivant:

  • Évaluer la forêt aléatoire sur l'ensemble d'entraînement
  • Pour chaque exemple, utilisez uniquement les arbres de décision qui n'ont pas vu l'exemple lors de l'entraînement.

Le tableau suivant illustre l'évaluation OOB d'une forêt aléatoire avec trois arbres de décision entraînés sur six exemples. (Oui, il s'agit du même tableau que dans la section "Bagages".) Le tableau indique quel arbre de décision est utilisé avec quel exemple lors de l'évaluation d'un objet OOB.

Tableau 7. Évaluation OOB : les nombres représentent le nombre de fois où un exemple d'entraînement donné est utilisé pendant son entraînement

Exemples d'entraînement Exemples d'évaluation OOB
#1 #2 #3 #4 #5 #6
ensemble de données d'origine 1 1 1 1 1 1
arbre de décision 1 1 1 0 2 1 1 #3
arbre de décision 2 3 0 1 0 2 0 2, 4 et 6
arbre de décision 3 0 1 3 1 0 1 1 et 5

Dans l'exemple présenté dans le tableau 7, les prédictions OOB de l'exemple d'entraînement 1 seront calculées avec l'arbre de décision 3 (puisque les arbres de décision n° 1 et n° 2 ont utilisé cet exemple pour l'entraînement). En pratique, sur un ensemble de données de taille raisonnable et avec quelques arbres de décision, tous les exemples ont une prédiction OOB.

Code YDF
Dans YDF, l'évaluation OOB est disponible dans les journaux d'entraînement si le modèle est entraîné avec compute_oob_performances=True.

L'évaluation OOB est également efficace pour calculer l'importance variable de la permutation pour les modèles de forêts aléatoires. Rappelez-vous, sous Importance des variables, que l'importance des variables de permutation mesure l'importance d'une variable en mesurant la baisse de la qualité du modèle lorsque cette variable est brassée. L'importance de la variable de permutation OOB est une importance de variable de permutation calculée à l'aide de l'évaluation OOB.

Code YDF
Dans YDF, les importances des variables de permutation OOB sont disponibles dans les journaux d'entraînement si le modèle est entraîné avec compute_oob_variable_importances=True.