Como se menciona en el artículo Regresión lineal módulo, calcular sesgo de predicción Es una verificación rápida que puede marcar problemas con el modelo o los datos de entrenamiento. desde el principio.
El sesgo de predicción es la diferencia entre la media de la predicciones y la media de etiquetas de verdad fundamental en la de datos no estructurados. Un modelo entrenado con un conjunto de datos donde el 5% de los correos electrónicos son spam debería predecir, en promedio, los correos electrónicos que clasifica son spam. En otras palabras, la media de las etiquetas en las conjunto de datos de verdad fundamental es 0.05, y la media de las predicciones del modelo debe también sea 0.05. Si este es el caso, el modelo no tiene sesgo de predicción. De el modelo aún podría tener otros problemas.
Si, en cambio, el modelo predice el 50% de las veces que un correo electrónico es spam, entonces hay un problema con el conjunto de datos de entrenamiento, el conjunto de datos nuevo del modelo al modelo en sí o con él. Cualquiera una diferencia significativa entre los dos medios sugiere que el modelo algún sesgo de predicción.
El sesgo de predicción puede deberse a lo siguiente:
- Sesgos o ruido en los datos, incluido el muestreo sesgado para el conjunto de entrenamiento
- Regularización demasiado fuerte, lo que significa que el modelo se simplificó en exceso y se perdió cierta complejidad necesaria
- Errores en la canalización del entrenamiento de modelos
- El conjunto de atributos proporcionados al modelo no es suficiente para la tarea