Schwellenwerte und die Wahrheitsmatrix

Angenommen, Sie haben ein logistisches Regressionsmodell zur Erkennung von Spam-E-Mails, das einen Wert zwischen 0 und 1 vorhersagt, der die Wahrscheinlichkeit darstellt, dass eine bestimmte E-Mail Spam ist. Ein Wert von 0,50 bedeutet eine Wahrscheinlichkeit von 50 %, dass die E-Mail Spam ist. Ein Wert von 0,75 bedeutet eine Wahrscheinlichkeit von 75 %, dass die E-Mail Spam ist, und so weiter.

Sie möchten dieses Modell in einer E-Mail-Anwendung bereitstellen, um Spam in einen separaten E-Mail-Ordner zu filtern. Dazu müssen Sie jedoch die Rohausgabe des Modells (z.B. 0.75) in eine von zwei Kategorien eingeteilt: „Spam“ oder „Kein Spam“.

Dazu wählen Sie einen Grenzwert für die Wahrscheinlichkeit aus, der als Klassifizierungsgrenzwert bezeichnet wird. Beispiele mit einer Wahrscheinlichkeit über dem Schwellenwert werden dann der positiven Klasse zugewiesen, der Klasse, auf die Sie testen (hier spam). Beispiele mit einer niedrigeren Wahrscheinlichkeit werden der negativen Klasse zugewiesen, der alternativen Klasse (hier not spam).

Weitere Informationen zum Klassifizierungsschwellenwert

Was passiert, wenn der vorhergesagte Wert dem Klassifizierungsgrenzwert entspricht (z.B.ein Wert von 0,5, wenn der Klassifizierungsgrenzwert ebenfalls 0,5 ist)? Die Vorgehensweise in diesem Fall hängt von der für das Klassifizierungsmodell ausgewählten Implementierung ab. Die Keras-Bibliothek prognostiziert die negative Klasse, wenn der Wert und der Grenzwert gleich sind. Andere Tools/Frameworks können diesen Fall jedoch anders behandeln.

Angenommen, das Modell bewertet eine E-Mail mit 0,99 und prognostiziert eine Wahrscheinlichkeit von 99 %, dass es sich um Spam handelt. Eine andere E-Mail wird mit 0,51 bewertet und es wird eine Wahrscheinlichkeit von 51% für Spam vorhergesagt. Wenn Sie den Klassifizierungsgrenzwert auf 0,5 festlegen, klassifiziert das Modell beide E-Mails als Spam. Wenn Sie den Grenzwert auf 0,95 festlegen, wird nur die E-Mail mit dem Wert 0,99 als Spam klassifiziert.

Der Wert 0,5 mag zwar intuitiv erscheinen, ist aber keine gute Wahl, wenn die Kosten einer Art von Falschklassifizierung höher sind als die der anderen oder wenn die Klassen unausgewogen sind. Wenn nur 0,01% der E-Mails Spam sind oder wenn das fälschliche Einordnen legitimer E-Mails schlimmer ist als das Zulassen von Spam in den Posteingang, führt das Markieren von E-Mails, die laut Modell mit mindestens 50% iger Wahrscheinlichkeit Spam sind, als Spam zu unerwünschten Ergebnissen.

Wahrheitsmatrix

Der Wahrscheinlichkeitswert ist nicht die Realität oder die Ground Truth. Für jede Ausgabe eines binären Klassifikators gibt es vier mögliche Ergebnisse. Wenn Sie im Beispiel für den Spamfilter die Ground Truth als Spalten und die Vorhersage des Modells als Zeilen anordnen, ergibt sich die folgende Tabelle, die als Wahrheitsmatrix bezeichnet wird:

Tatsächlich positiv Tatsächlich negativ
Prognostiziert positiv Richtig positiv (TP): Eine Spam-E-Mail, die korrekt als Spam-E-Mail klassifiziert wurde. Dies sind die Spamnachrichten, die automatisch in den Spamordner verschoben werden. Falsch positiv (FP): Eine E-Mail, die keine Spam-E-Mail ist, aber fälschlicherweise als Spam klassifiziert wurde. Das sind legitime E-Mails, die im Spamordner landen.
Vorhergesagt negativ Falsch-negativ (FN): Eine Spam-E-Mail, die fälschlicherweise als „Kein Spam“ klassifiziert wurde. Das sind Spam-E-Mails, die vom Spamfilter nicht erkannt werden und in den Posteingang gelangen. True Negative (TN): Eine E-Mail, die keine Spam-E-Mail ist und korrekt als solche eingestuft wurde. Das sind legitime E-Mails, die direkt an den Posteingang gesendet werden.

Die Gesamtzahl in jeder Zeile gibt die Anzahl aller vorhergesagten positiven (TP + FP) und aller vorhergesagten negativen (FN + TN) Ergebnisse an, unabhängig von ihrer Gültigkeit. Die Summe in jeder Spalte gibt hingegen alle tatsächlich positiven (TP + FN) und alle tatsächlich negativen (FP + TN) Ergebnisse unabhängig von der Modellklassifizierung an.

Wenn die Gesamtzahl der tatsächlichen positiven Fälle nicht annähernd der Gesamtzahl der tatsächlichen negativen Fälle entspricht, ist der Datensatz nicht ausgewogen. Ein Beispiel für ein ungleichmäßiges Dataset wäre eine Reihe von Tausenden von Fotos von Wolken, in denen der seltene Wolkentyp, für den Sie sich interessieren, z. B. Wölkchen, nur wenige Male vorkommt.

Auswirkungen des Schwellenwerts auf richtig positive, falsch positive und falsch negative Ergebnisse

Unterschiedliche Grenzwerte führen in der Regel zu einer unterschiedlichen Anzahl von richtig und falsch positiven sowie richtig und falsch negativen Ergebnissen. Im folgenden Video wird erklärt, warum das so ist.

Versuchen Sie, den Grenzwert selbst zu ändern.

Dieses Widget enthält drei Spielzeug-Datasets:

  • Getrennt: Positive und negative Beispiele sind im Allgemeinen gut voneinander abgegrenzt, wobei die meisten positiven Beispiele eine höhere Bewertung als die negativen Beispiele haben.
  • Nicht getrennt, wobei viele positive Beispiele niedrigere Werte als negative Beispiele haben und viele negative Beispiele höhere Werte als positive Beispiele.
  • Unausgeglichen, da nur wenige Beispiele für die positive Klasse enthalten sind.

Wissen testen

1. Angenommen, Sie haben ein Modell zur Klassifizierung von Phishing- oder Malware-Websites, bei dem Phishing- und Malware-Websites der Klasse 1 (wahr) und harmlose Websites der Klasse 0 (falsch) zugewiesen sind. Dieses Modell klassifiziert eine legitime Website fälschlicherweise als Malware. Wie wird das genannt?
Ein falsch positives Ergebnis
Ein negatives Beispiel (legitime Website) wurde fälschlicherweise als positives Beispiel (Malware-Website) eingestuft.
Ein richtig positives Ergebnis
Ein richtig positives Ergebnis wäre eine Malware-Website, die korrekt als Malware eingestuft wurde.
Ein falsch negatives Ergebnis
Ein falsch negatives Ergebnis wäre eine Malware-Website, die fälschlicherweise als legitime Website eingestuft wurde.
Ein richtig negatives Ergebnis
Ein echter Negativfall wäre eine legitime Website, die korrekt als legitime Website eingestuft wurde.
2. Was passiert im Allgemeinen mit der Anzahl der falsch positiven Ergebnisse, wenn der Klassifizierungsgrenzwert erhöht wird? Was ist mit richtig positiven Ergebnissen? Experimentieren Sie mit dem Schieberegler oben.
Sowohl richtig als auch falsch positive Ergebnisse gehen zurück.
Je höher der Schwellenwert ist, desto weniger positive Ergebnisse werden insgesamt vorhergesagt, sowohl richtig als auch falsch. Ein Spamfilter mit einem Grenzwert von 0,9999 kennzeichnet eine E-Mail nur dann als Spam, wenn die Klassifizierung mit einer Wahrscheinlichkeit von mindestens 99,99% als wahrscheinlich eingestuft wird. Das bedeutet, dass es sehr unwahrscheinlich ist, dass eine legitime E-Mail fälschlicherweise als Spam markiert wird, aber auch, dass echte Spam-E-Mails übersehen werden.
Sowohl die Anzahl der echten als auch die der falsch positiven Ergebnisse steigt.
Stellen Sie den Grenzwert mit dem Schieberegler oben auf 0, 1 und ziehen Sie ihn dann auf 0,9. Was passiert mit der Anzahl der falsch positiven und der Anzahl der richtig positiven Ergebnisse?
Richtig positive Ergebnisse nehmen zu. Falsch positive Ergebnisse werden reduziert.
Versuchen Sie, den Grenzwert mit dem Schieberegler oben auf 0,1 zu setzen und dann auf 0,9 zu ziehen. Was passiert mit der Anzahl der falsch positiven und der richtig positiven Ergebnisse?
3. Was passiert im Allgemeinen mit der Anzahl der falsch negativen Ergebnisse, wenn der Klassifizierungsgrenzwert erhöht wird? Wie sieht es mit richtig negativen Ergebnissen aus? Experimentieren Sie mit dem Schieberegler oben.
Sowohl richtig als auch falsch negative Ergebnisse nehmen zu.
Je höher der Grenzwert ist, desto wahrscheinlicher wird das Modell insgesamt mehr negative Ergebnisse vorhersagen, sowohl richtig als auch falsch. Bei einem sehr hohen Grenzwert werden fast alle E-Mails, sowohl Spam als auch Nicht-Spam, als „Kein Spam“ klassifiziert.
Sowohl richtig als auch falsch negative Ergebnisse nehmen ab.
Stellen Sie den Grenzwert mit dem Schieberegler oben auf 0, 1 und ziehen Sie ihn dann auf 0,9. Was passiert mit der Anzahl der falsch negativen und der Anzahl der richtig negativen Ergebnisse?
Die Anzahl der richtig negativen Ergebnisse steigt. Die Anzahl der falsch negativen Ergebnisse sinkt.
Stellen Sie den Grenzwert mit dem Schieberegler oben auf 0, 1 und ziehen Sie ihn dann auf 0,9. Was passiert mit der Anzahl der falsch negativen und der Anzahl der richtig negativen Ergebnisse?