Comme indiqué dans les Régression linéaire module, calculant biais de prédiction est une vérification rapide permettant de signaler les problèmes liés au modèle ou aux données d'entraînement. dès le début.
Le biais de prédiction est la différence entre la moyenne des prédictions prédictions et la moyenne de étiquettes de vérité terrain dans données. Modèle entraîné sur un ensemble de données selon lequel 5% des e-mails sont du spam devraient prévoir, en moyenne, que 5 % que les e-mails qu'il classe sont des spams. En d'autres termes, la moyenne des étiquettes dans de vérité terrain est de 0,05, et la moyenne des prédictions du modèle doit est également égale à 0,05. Dans ce cas, le modèle présente un biais de prédiction de zéro. De bien sûr, le modèle peut encore présenter d'autres problèmes.
Si le modèle prédit qu'un e-mail est un spam 50% du temps, Si un problème est survenu avec l'ensemble de données d'entraînement, le nouvel ensemble de données utilisé par le modèle ou avec le modèle lui-même. N'importe quelle valeur une différence significative entre les deux moyennes suggère que le modèle un certain biais de prédiction.
Un biais de prédiction peut être causé par:
- Biais ou bruit dans les données, y compris un échantillonnage biaisé pour l'ensemble d'entraînement
- Régularisation trop forte (le modèle était trop simpliste et a été perdu) la complexité nécessaire
- Bugs dans le pipeline d'entraînement du modèle
- L'ensemble des caractéristiques fournies au modèle est insuffisant pour la tâche