Angenommen, Sie haben ein logistisches Regressionsmodell zur Erkennung von Spam-E-Mails, das einen Wert zwischen 0 und 1 vorhersagt, der die Wahrscheinlichkeit darstellt, dass eine bestimmte E-Mail Spam ist. Ein Wert von 0,50 bedeutet eine Wahrscheinlichkeit von 50 %, dass die E-Mail Spam ist. Ein Wert von 0,75 bedeutet eine Wahrscheinlichkeit von 75 %, dass die E-Mail Spam ist, und so weiter.
Sie möchten dieses Modell in einer E-Mail-Anwendung bereitstellen, um Spam in einen separaten E-Mail-Ordner zu filtern. Dazu müssen Sie jedoch die Rohausgabe des Modells (z.B. 0.75
) in eine von zwei Kategorien eingeteilt: „Spam“ oder „Kein Spam“.
Dazu wählen Sie einen Grenzwert für die Wahrscheinlichkeit aus, der als Klassifizierungsgrenzwert bezeichnet wird.
Beispiele mit einer Wahrscheinlichkeit über dem Schwellenwert werden dann der positiven Klasse zugewiesen, der Klasse, auf die Sie testen (hier spam
). Beispiele mit einer niedrigeren Wahrscheinlichkeit werden der negativen Klasse zugewiesen, der alternativen Klasse (hier not spam
).
Weitere Informationen zum Klassifizierungsschwellenwert
Was passiert, wenn der vorhergesagte Wert dem Klassifizierungsgrenzwert entspricht (z.B.ein Wert von 0,5, wenn der Klassifizierungsgrenzwert ebenfalls 0,5 ist)? Die Vorgehensweise in diesem Fall hängt von der für das Klassifizierungsmodell ausgewählten Implementierung ab. Die Keras-Bibliothek prognostiziert die negative Klasse, wenn der Wert und der Grenzwert gleich sind. Andere Tools/Frameworks können diesen Fall jedoch anders behandeln.
Angenommen, das Modell bewertet eine E-Mail mit 0,99 und prognostiziert eine Wahrscheinlichkeit von 99 %, dass es sich um Spam handelt. Eine andere E-Mail wird mit 0,51 bewertet und es wird eine Wahrscheinlichkeit von 51% für Spam vorhergesagt. Wenn Sie den Klassifizierungsgrenzwert auf 0,5 festlegen, klassifiziert das Modell beide E-Mails als Spam. Wenn Sie den Grenzwert auf 0,95 festlegen, wird nur die E-Mail mit dem Wert 0,99 als Spam klassifiziert.
Der Wert 0,5 mag zwar intuitiv erscheinen, ist aber keine gute Wahl, wenn die Kosten einer Art von Falschklassifizierung höher sind als die der anderen oder wenn die Klassen unausgewogen sind. Wenn nur 0,01% der E-Mails Spam sind oder wenn das fälschliche Einordnen legitimer E-Mails schlimmer ist als das Zulassen von Spam in den Posteingang, führt das Markieren von E-Mails, die laut Modell mit mindestens 50% iger Wahrscheinlichkeit Spam sind, als Spam zu unerwünschten Ergebnissen.
Wahrheitsmatrix
Der Wahrscheinlichkeitswert ist nicht die Realität oder die Ground Truth. Für jede Ausgabe eines binären Klassifikators gibt es vier mögliche Ergebnisse. Wenn Sie im Beispiel für den Spamfilter die Ground Truth als Spalten und die Vorhersage des Modells als Zeilen anordnen, ergibt sich die folgende Tabelle, die als Wahrheitsmatrix bezeichnet wird:
Tatsächlich positiv | Tatsächlich negativ | |
---|---|---|
Prognostiziert positiv | Richtig positiv (TP): Eine Spam-E-Mail, die korrekt als Spam-E-Mail klassifiziert wurde. Dies sind die Spamnachrichten, die automatisch in den Spamordner verschoben werden. | Falsch positiv (FP): Eine E-Mail, die keine Spam-E-Mail ist, aber fälschlicherweise als Spam klassifiziert wurde. Das sind legitime E-Mails, die im Spamordner landen. |
Vorhergesagt negativ | Falsch-negativ (FN): Eine Spam-E-Mail, die fälschlicherweise als „Kein Spam“ klassifiziert wurde. Das sind Spam-E-Mails, die vom Spamfilter nicht erkannt werden und in den Posteingang gelangen. | True Negative (TN): Eine E-Mail, die keine Spam-E-Mail ist und korrekt als solche eingestuft wurde. Das sind legitime E-Mails, die direkt an den Posteingang gesendet werden. |
Die Gesamtzahl in jeder Zeile gibt die Anzahl aller vorhergesagten positiven (TP + FP) und aller vorhergesagten negativen (FN + TN) Ergebnisse an, unabhängig von ihrer Gültigkeit. Die Summe in jeder Spalte gibt hingegen alle tatsächlich positiven (TP + FN) und alle tatsächlich negativen (FP + TN) Ergebnisse unabhängig von der Modellklassifizierung an.
Wenn die Gesamtzahl der tatsächlichen positiven Fälle nicht annähernd der Gesamtzahl der tatsächlichen negativen Fälle entspricht, ist der Datensatz nicht ausgewogen. Ein Beispiel für ein ungleichmäßiges Dataset wäre eine Reihe von Tausenden von Fotos von Wolken, in denen der seltene Wolkentyp, für den Sie sich interessieren, z. B. Wölkchen, nur wenige Male vorkommt.
Auswirkungen des Schwellenwerts auf richtig positive, falsch positive und falsch negative Ergebnisse
Unterschiedliche Grenzwerte führen in der Regel zu einer unterschiedlichen Anzahl von richtig und falsch positiven sowie richtig und falsch negativen Ergebnissen. Im folgenden Video wird erklärt, warum das so ist.
Versuchen Sie, den Grenzwert selbst zu ändern.
Dieses Widget enthält drei Spielzeug-Datasets:
- Getrennt: Positive und negative Beispiele sind im Allgemeinen gut voneinander abgegrenzt, wobei die meisten positiven Beispiele eine höhere Bewertung als die negativen Beispiele haben.
- Nicht getrennt, wobei viele positive Beispiele niedrigere Werte als negative Beispiele haben und viele negative Beispiele höhere Werte als positive Beispiele.
- Unausgeglichen, da nur wenige Beispiele für die positive Klasse enthalten sind.