Klassifizierung: Vorhersageverzerrung

Wie in den Lineare Regression Modul, Berechnung Vorhersageverzerrung ist eine schnelle Überprüfung, mit der Probleme mit dem Modell oder den Trainingsdaten gemeldet werden können. .

Die Vorhersageverzerrung ist die Differenz zwischen dem Mittelwert vervollständigungen und der Mittelwert von Ground-Truth-Labels in der Daten. Ein mit einem Dataset trainiertes Modell bei denen 5 % der E-Mails Spam sind, dürfte prognostiziert werden, als Spam klassifiziert werden. Mit anderen Worten, der Mittelwert der Beschriftungen in der Ground-Truth-Dataset ist 0, 05 und der Mittelwert der Modellvorhersagen sollte ebenfalls 0,05. In diesem Fall liegt die Vorhersageverzerrung für das Modell bei null. von hat das Modell vielleicht noch andere Probleme.

Wenn das Modell stattdessen 50% der Zeit voraussagt, dass es sich bei einer E-Mail um Spam handelt, mit dem Trainings-Dataset stimmt, ist das neue Dataset, oder auf das Modell selbst angewendet. Beliebig ein signifikanter Unterschied zwischen den beiden Mitteln besteht, deutet darauf hin, dass das Modell eine gewisse Vorhersageverzerrung.

Vorhersageverzerrungen können folgende Ursachen haben:

  • Verzerrungen oder Rauschen in den Daten, einschließlich verzerrter Stichproben für das Trainings-Dataset
  • Zu starke Regularisierung, d. h., das Modell wurde zu vereinfacht und verloren. eine gewisse Komplexität
  • Fehler in der Pipeline für das Modelltraining
  • Die dem Modell bereitgestellten Merkmale, die für die Aufgabe nicht ausreichend sind