Conjunto de validación: Otra partición

En el módulo anterior, se presentó la partición de un conjunto de datos en un conjunto de entrenamiento y uno de prueba. Esta partición te permitió entrenar con un conjunto de ejemplos y, luego, probar el modelo con un conjunto diferente de ejemplos. Con dos particiones, el flujo de trabajo podría verse de la siguiente manera:

Un diagrama de flujo de trabajo que consta de tres etapas. 1. Entrenar el modelo con el conjunto de entrenamiento 2. Evaluar el modelo con el conjunto de prueba. 3. Ajustar el modelo en función de los resultados con el conjunto de prueba. Iterar sobre 1, 2 y 3, y finalmente eligiendo el modelo que mejor se desempeñe en el conjunto de prueba.

Figura 1: ¿Un flujo de trabajo posible?

En la figura, "Ajustar el modelo" significa ajustar cualquier elemento del modelo que puedas imaginar, desde cambiar la tasa de aprendizaje hasta agregar o quitar atributos, o diseñar un modelo completamente nuevo desde cero. Al final de este flujo de trabajo, debes elegir el modelo que mejor se desempeñe con respecto al conjunto de prueba.

Dividir el conjunto de datos en dos conjuntos es una buena idea, pero no una panacea. Para reducir en gran medida las posibilidades de sobreajuste, puedes particionar el conjunto de datos en los tres subconjuntos que se muestran en la siguiente figura:

Barra horizontal dividida en tres partes: un 70% corresponde al conjunto de entrenamiento, un 15% corresponde al conjunto de validación y el otro 15%, el conjunto de prueba

Figura 2: División de un único conjunto de datos en tres subconjuntos

Usa el conjunto de validación para evaluar los resultados del conjunto de entrenamiento. A continuación, usa el conjunto de prueba para verificar la evaluación después de que el modelo haya "pasado" el conjunto de validación. En la siguiente figura, se muestra este nuevo flujo de trabajo:

Un flujo de trabajo similar al de la Figura 1, excepto que, en lugar de evaluar el modelo con el conjunto de prueba, el flujo de trabajo evalúa el modelo con el conjunto de validación. Luego, una vez que el conjunto de entrenamiento y el de validación coincidan más o menos, confirma el modelo con el conjunto de prueba.

Figura 3: Un flujo de trabajo mejorado.

En este flujo de trabajo mejorado, sucede lo siguiente:

  1. Elige el modelo que mejor se desempeñe con el conjunto de validación.
  2. Vuelve a verificar el modelo con el conjunto de prueba.

Este flujo de trabajo es más eficaz porque crea menos exposiciones al conjunto de prueba.