Klassifizierung: Vorhersageverzerrung

Die Berechnung von Vorhersagebias ist eine schnelle Überprüfung, mit der Probleme mit dem Modell oder den Trainingsdaten frühzeitig erkannt werden können.

Die Vorhersageabweichung ist die Differenz zwischen dem Mittelwert der Vorhersagen eines Modells und dem Mittelwert der Ground-Truth-Labels in den Daten. Ein Modell, das mit einem Dataset trainiert wurde, in dem 5% der E‑Mails Spam sind, sollte im Durchschnitt vorhersagen, dass 5% der von ihm klassifizierten E‑Mails Spam sind. Das bedeutet, dass der Mittelwert der Labels im Ground-Truth-Dataset 0,05 beträgt und der Mittelwert der Vorhersagen des Modells ebenfalls 0,05 betragen sollte. In diesem Fall hat das Modell keine Vorhersageverzerrung. Natürlich kann das Modell trotzdem noch andere Probleme haben.

Wenn das Modell stattdessen in 50% der Fälle vorhersagt, dass eine E-Mail Spam ist, stimmt etwas mit dem Trainings-Dataset, dem neuen Dataset, auf das das Modell angewendet wird, oder mit dem Modell selbst nicht. Ein signifikanter Unterschied zwischen den beiden Mittelwerten deutet darauf hin, dass das Modell einen gewissen Vorhersage-Bias aufweist.

Vorhersageverzerrungen können folgende Ursachen haben:

  • Verzerrungen oder Rauschen in den Daten, einschließlich verzerrter Stichproben für den Trainingssatz
  • Eine zu starke Regularisierung, d. h. das Modell wurde zu stark vereinfacht und hat dadurch an notwendiger Komplexität verloren.
  • Fehler in der Modelltraining-Pipeline
  • Die dem Modell zur Verfügung gestellten Features reichen für die Aufgabe nicht aus.