Clasificación: Sesgo de predicción
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Como se menciona en el artículo
Regresión lineal
módulo, calcular
sesgo de predicción
Es una verificación rápida que puede marcar problemas con el modelo o los datos de entrenamiento.
desde el principio.
El sesgo de predicción es la diferencia entre la media de la
predicciones
y la media de
etiquetas de verdad fundamental en la
de datos no estructurados. Un modelo entrenado con un conjunto de datos
donde el 5% de los
correos electrónicos son spam debería predecir, en promedio,
los correos electrónicos que clasifica son spam. En otras palabras, la media de las etiquetas en las
conjunto de datos de verdad fundamental es 0.05, y la media de las predicciones del modelo debe
también sea 0.05. Si este es el caso, el modelo no tiene sesgo de predicción. De
el modelo aún podría tener otros problemas.
Si, en cambio, el modelo predice el 50% de las veces que un correo electrónico es spam, entonces
hay un problema con el conjunto de datos de entrenamiento, el conjunto de datos nuevo del modelo
al modelo en sí o con él. Cualquiera
una diferencia significativa entre los dos medios sugiere que el modelo
algún sesgo de predicción.
El sesgo de predicción puede deberse a lo siguiente:
- Sesgos o ruido en los datos, incluido el muestreo sesgado para el conjunto de entrenamiento
- Regularización demasiado fuerte, lo que significa que el modelo se simplificó en exceso y se perdió
cierta complejidad necesaria
- Errores en la canalización del entrenamiento de modelos
- El conjunto de atributos proporcionados al modelo no es suficiente para la tarea
Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2024-08-13 (UTC)
[null,null,["Última actualización: 2024-08-13 (UTC)"],[[["\u003cp\u003ePrediction bias, calculated as the difference between the average prediction and the average ground truth, is a quick check for model or data issues.\u003c/p\u003e\n"],["\u003cp\u003eA model with zero prediction bias ideally predicts the same average outcome as observed in the ground truth data, such as a spam detection model predicting the same percentage of spam emails as actually present in the dataset.\u003c/p\u003e\n"],["\u003cp\u003eSignificant prediction bias can indicate problems in the training data, the model itself, or the new data being applied to the model.\u003c/p\u003e\n"],["\u003cp\u003eCommon causes of prediction bias include biased data, excessive regularization, bugs in the training process, and insufficient features provided to the model.\u003c/p\u003e\n"]]],[],null,["# Classification: Prediction bias\n\nAs mentioned in the\n[Linear regression](/machine-learning/crash-course/linear-regression)\nmodule, calculating\n[**prediction bias**](/machine-learning/glossary#prediction_bias)\nis a quick check that can flag issues with the model or training data\nearly on.\n\nPrediction bias is the difference between the mean of a model's\n[**predictions**](/machine-learning/glossary#prediction)\nand the mean of\n[**ground-truth**](/machine-learning/glossary#ground-truth) labels in the\ndata. A model trained on a dataset\nwhere 5% of the emails are spam should predict, on average, that 5% of the\nemails it classifies are spam. In other words, the mean of the labels in the\nground-truth dataset is 0.05, and the mean of the model's predictions should\nalso be 0.05. If this is the case, the model has zero prediction bias. Of\ncourse, the model might still have other problems.\n\nIf the model instead predicts 50% of the time that an email is spam, then\nsomething is wrong with the training dataset, the new dataset the model is\napplied to, or with the model itself. Any\nsignificant difference between the two means suggests that the model has\nsome prediction bias.\n\nPrediction bias can be caused by:\n\n- Biases or noise in the data, including biased sampling for the training set\n- Too-strong regularization, meaning that the model was oversimplified and lost some necessary complexity\n- Bugs in the model training pipeline\n- The set of features provided to the model being insufficient for the task\n\n| **Key terms:**\n|\n| - [Ground truth](/machine-learning/glossary#ground-truth)\n| - [Prediction](/machine-learning/glossary#prediction)\n- [Prediction bias](/machine-learning/glossary#prediction_bias) \n[Help Center](https://support.google.com/machinelearningeducation)"]]