Evaluación fuera del modelo

Los bosques aleatorios no requieren un conjunto de datos de validación. La mayoría de los bosques aleatorios usan una técnica llamada evaluación fuera del conjunto (evaluación OOB) para evaluar la calidad del modelo. La evaluación fuera del conjunto de entrenamiento trata el conjunto de entrenamiento como si estuviera en el conjunto de prueba de una validación cruzada.

Como se explicó anteriormente, por lo general, cada árbol de decisión en un bosque aleatorio se entrena en aproximadamente el 67% de los ejemplos de entrenamiento. Por lo tanto, cada árbol de decisión no ve aproximadamente el 33% de los ejemplos de entrenamiento. La idea principal de la evaluación fuera del alcance es la siguiente:

  • Para evaluar el bosque aleatorio en el conjunto de entrenamiento.
  • Para cada ejemplo, usa solo los árboles de decisión que no vieron el ejemplo durante el entrenamiento.

En la siguiente tabla, se ilustra la evaluación fuera del conjunto de entrenamiento de un bosque aleatorio con 3 árboles de decisión entrenados en 6 ejemplos. (Sí, esta es la misma tabla que en la sección Bagging). La tabla muestra qué árbol de decisiones se usa con cada ejemplo durante la evaluación fuera del alcance.

Tabla 7. Evaluación fuera del conjunto de entrenamiento: las cifras representan la cantidad de veces que se usa un ejemplo de entrenamiento determinado durante el entrenamiento del ejemplo determinado.

Ejemplos de entrenamiento Ejemplos de evaluación fuera del alcance
#1 #2 N.º 3 #4 #5 #6
conjunto de datos original 1 1 1 1 1 1
árbol de decisión 1 1 1 0 2 1 1 #3
árbol de decisión 2 3 0 1 0 2 0 2, 4 y 6
Árbol de decisión 3 0 1 3 1 0 1 #1 y #5

En el ejemplo que se muestra en la tabla 7, las predicciones fuera del conjunto de entrenamiento para el ejemplo de entrenamiento 1 se calcularán con el árbol de decisión n° 3 (ya que los árboles de decisión n° 1 y n° 2 usaron este ejemplo para el entrenamiento). En la práctica, en un conjunto de datos de tamaño razonable y con algunos árboles de decisión, todos los ejemplos tienen una predicción fuera del modelo.

Código YDF
En YDF, la evaluación fuera del modelo está disponible en los registros de entrenamiento si el modelo se entrena con compute_oob_performances=True.

La evaluación fuera del modelo también es eficaz para calcular la importancia de las variables de permutación para los modelos de bosques aleatorios. Recuerda de Importancias de las variables que la importancia de la variable de permutación mide la importancia de una variable midiendo la disminución de la calidad del modelo cuando se baraja esta variable. La "importancia de la variable de permutación fuera del modelo" del bosque aleatorio es una importancia de la variable de permutación calculada con la evaluación fuera del modelo.

Código YDF
En YDF, las importancias de las variables de permutación fuera del conjunto están disponibles en los registros de entrenamiento si el modelo se entrena con compute_oob_variable_importances=True.