Evaluación de la bolsa

Los bosques aleatorios no requieren un conjunto de datos de validación. En la mayoría de los bosques aleatorios, se usa una técnica llamada out-of-bag-evaluation (out-of-bag-evaluation out-of-bag-evaluation) para evaluar la calidad del modelo. La evaluación OOB trata el conjunto de entrenamiento como si estuviera en el conjunto de prueba de una validación cruzada.

Como se explicó anteriormente, cada árbol de decisión en un bosque aleatorio generalmente se entrena con alrededor del 67% de los ejemplos de entrenamiento. Por lo tanto, cada árbol de decisión no ve alrededor del 33% de los ejemplos de entrenamiento. La idea central de la evaluación OOB es la siguiente:

  • Evaluar el bosque aleatorio en el conjunto de entrenamiento.
  • Para cada ejemplo, solo usa los árboles de decisión que no vieron el ejemplo durante el entrenamiento.

En la siguiente tabla, se ilustra la evaluación OOB de un bosque aleatorio con 3 árboles de decisión entrenados con 6 ejemplos. (Sí, esta es la misma tabla que en la sección Bolsa). La tabla muestra qué árbol de decisión se usa con qué ejemplo durante la evaluación OOB.

Tabla 7: Evaluación OOB: Los números representan la cantidad de veces que se usa un ejemplo de entrenamiento determinado durante el entrenamiento de un ejemplo determinado.

Ejemplos de entrenamiento Ejemplos para la evaluación OOB
1 #2 N.º 3 #4 #5 #6
conjunto de datos original 1 1 1 1 1 1
árbol de decisión 1 1 1 0 2 1 1 #3
árbol de decisión 2 3 0 1 0 2 0 #2, #4 y #6
árbol de decisión 3 0 1 3 1 0 1 1 y 5

En el ejemplo de la Tabla 7, las predicciones de OOB para el ejemplo de entrenamiento 1 se calcularán con el árbol de decisión n.o 3 (ya que los árboles de decisión n.o 1 y n.o 2 usaron este ejemplo para el entrenamiento). En la práctica, en un conjunto de datos de tamaño razonable y con algunos árboles de decisión, todos los ejemplos tienen una predicción de OOB.

Código YDF
En YDF, la evaluación de OOB está disponible en los registros de entrenamiento si el modelo se entrena con compute_oob_performances=True.

La evaluación OOB también es eficaz a fin de calcular la importancia de las variables de permutación para modelos de bosques aleatorios. Recuerda que, en Importancias de las variables, la importancia de las variables de permutación mide la importancia de una variable mediante la medición de la disminución de la calidad del modelo cuando esta variable se mezcla. La "importancia de la variable de permutación de OOB" al azar es una importancia de la variable de permutación que se calcula mediante la evaluación de OOB.

Código YDF
En YDF, las importancias de las variables de permutación de OOB están disponibles en los registros de entrenamiento si el modelo se entrena con compute_oob_variable_importances=True.