Clasificación: Sesgo de predicción

El cálculo del sesgo de predicción es una verificación rápida que puede marcar problemas con el modelo o los datos de entrenamiento en una etapa temprana.

El sesgo de predicción es la diferencia entre la media de las predicciones de un modelo y la media de las etiquetas de verdad fundamental en los datos. Un modelo entrenado con un conjunto de datos en el que el 5% de los correos electrónicos son spam debería predecir, en promedio, que el 5% de los correos electrónicos que clasifica son spam. En otras palabras, la media de las etiquetas en el conjunto de datos de verdad fundamental es 0.05, y la media de las predicciones del modelo también debería ser 0.05. Si este es el caso, el modelo tiene un sesgo de predicción cero. Por supuesto, el modelo podría tener otros problemas.

Si, en cambio, el modelo predice el 50% de las veces que un correo electrónico es spam, algo anda mal con el conjunto de datos de entrenamiento, el nuevo conjunto de datos al que se aplica el modelo o el modelo en sí. Cualquier diferencia significativa entre las dos medias sugiere que el modelo tiene algún sesgo de predicción.

El sesgo de predicción puede deberse a lo siguiente:

  • Sesgos o ruido en los datos, incluido el muestreo sesgado para el conjunto de entrenamiento
  • Regularización demasiado fuerte, lo que significa que el modelo se simplificó demasiado y perdió parte de la complejidad necesaria
  • Errores en la canalización de entrenamiento del modelo
  • El conjunto de atributos proporcionado al modelo no es suficiente para la tarea.