Klassifizierung: Vorhersageverzerrung
Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Wie in den
Lineare Regression
Modul, Berechnung
Vorhersageverzerrung
ist eine schnelle Überprüfung, mit der Probleme mit dem Modell oder den Trainingsdaten gemeldet werden können.
.
Die Vorhersageverzerrung ist die Differenz zwischen dem Mittelwert
vervollständigungen
und der Mittelwert von
Ground-Truth-Labels in der
Daten. Ein mit einem Dataset trainiertes Modell
bei denen 5 % der E-Mails Spam sind, dürfte prognostiziert werden,
als Spam klassifiziert werden. Mit anderen Worten, der Mittelwert der Beschriftungen in der
Ground-Truth-Dataset ist 0, 05 und der Mittelwert der Modellvorhersagen sollte
ebenfalls 0,05. In diesem Fall liegt die Vorhersageverzerrung für das Modell bei null. von
hat das Modell vielleicht noch andere Probleme.
Wenn das Modell stattdessen 50% der Zeit voraussagt, dass es sich bei einer E-Mail um Spam handelt,
mit dem Trainings-Dataset stimmt, ist das neue Dataset,
oder auf das Modell selbst angewendet. Beliebig
ein signifikanter Unterschied zwischen den beiden Mitteln besteht, deutet darauf hin, dass das Modell
eine gewisse Vorhersageverzerrung.
Vorhersageverzerrungen können folgende Ursachen haben:
- Verzerrungen oder Rauschen in den Daten, einschließlich verzerrter Stichproben für das Trainings-Dataset
- Zu starke Regularisierung, d. h., das Modell wurde zu vereinfacht und verloren.
eine gewisse Komplexität
- Fehler in der Pipeline für das Modelltraining
- Die dem Modell bereitgestellten Merkmale, die für die Aufgabe nicht ausreichend sind
Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.
Zuletzt aktualisiert: 2024-08-13 (UTC).
[null,null,["Zuletzt aktualisiert: 2024-08-13 (UTC)."],[[["\u003cp\u003ePrediction bias, calculated as the difference between the average prediction and the average ground truth, is a quick check for model or data issues.\u003c/p\u003e\n"],["\u003cp\u003eA model with zero prediction bias ideally predicts the same average outcome as observed in the ground truth data, such as a spam detection model predicting the same percentage of spam emails as actually present in the dataset.\u003c/p\u003e\n"],["\u003cp\u003eSignificant prediction bias can indicate problems in the training data, the model itself, or the new data being applied to the model.\u003c/p\u003e\n"],["\u003cp\u003eCommon causes of prediction bias include biased data, excessive regularization, bugs in the training process, and insufficient features provided to the model.\u003c/p\u003e\n"]]],[],null,["# Classification: Prediction bias\n\nAs mentioned in the\n[Linear regression](/machine-learning/crash-course/linear-regression)\nmodule, calculating\n[**prediction bias**](/machine-learning/glossary#prediction_bias)\nis a quick check that can flag issues with the model or training data\nearly on.\n\nPrediction bias is the difference between the mean of a model's\n[**predictions**](/machine-learning/glossary#prediction)\nand the mean of\n[**ground-truth**](/machine-learning/glossary#ground-truth) labels in the\ndata. A model trained on a dataset\nwhere 5% of the emails are spam should predict, on average, that 5% of the\nemails it classifies are spam. In other words, the mean of the labels in the\nground-truth dataset is 0.05, and the mean of the model's predictions should\nalso be 0.05. If this is the case, the model has zero prediction bias. Of\ncourse, the model might still have other problems.\n\nIf the model instead predicts 50% of the time that an email is spam, then\nsomething is wrong with the training dataset, the new dataset the model is\napplied to, or with the model itself. Any\nsignificant difference between the two means suggests that the model has\nsome prediction bias.\n\nPrediction bias can be caused by:\n\n- Biases or noise in the data, including biased sampling for the training set\n- Too-strong regularization, meaning that the model was oversimplified and lost some necessary complexity\n- Bugs in the model training pipeline\n- The set of features provided to the model being insufficient for the task\n\n| **Key terms:**\n|\n| - [Ground truth](/machine-learning/glossary#ground-truth)\n| - [Prediction](/machine-learning/glossary#prediction)\n- [Prediction bias](/machine-learning/glossary#prediction_bias) \n[Help Center](https://support.google.com/machinelearningeducation)"]]