Klassifizierung: Genauigkeit, Trefferquote, Genauigkeit und zugehörige Messwerte

Richtig und falsch positive und negative Ergebnisse werden verwendet, um mehrere nützliche Messwerte zum Bewerten von Modellen zu berechnen. Welche Bewertungsmesswerte am aussagekräftigsten sind, hängt vom jeweiligen Modell und der spezifischen Aufgabe, den Kosten für verschiedene Fehlklassifizierungen sowie davon ab, ob das Dataset ausgewogen oder unausgewogen ist.

Alle Messwerte in diesem Abschnitt werden anhand eines einzelnen festen Grenzwerts berechnet und ändern sich, wenn sich der Grenzwert ändert. Sehr oft passt der Nutzer den Grenzwert an, um einen dieser Messwerte zu optimieren.

Genauigkeit

Die Genauigkeit ist der Anteil aller richtig, ob positiv oder negativ. Mathematisch wird sie so definiert:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Im Beispiel für die Spamklassifizierung misst die Genauigkeit den Anteil aller richtig klassifizierten E-Mails.

Ein perfektes Modell hätte keine falsch positiven und keine falsch negativen Ergebnisse und daher eine Genauigkeit von 1,0 oder 100 %.

Da sie bei einem ausgewogenen Dataset mit einer ähnlichen Anzahl von Beispielen in beiden Klassen alle vier Ergebnisse der Wahrheitsmatrix (TP, FP, TN, FN) berücksichtigt, kann die Genauigkeit als grober Maßstab für die Modellqualität dienen. Aus diesem Grund ist er oft der Standardbewertungsmesswert für allgemeine oder nicht näher spezifizierte Modelle, die allgemeine oder nicht näher spezifizierte Aufgaben ausführen.

Wenn der Datensatz jedoch unausgewogen ist oder eine Art von Fehler (falsch-negativ oder falsch-positiv) teurer ist als die andere, was in den meisten realen Anwendungen der Fall ist, sollten Sie stattdessen einen der anderen Messwerte optimieren.

Bei stark unausgewogenen Datasets, in denen eine Klasse sehr selten vorkommt, z. B. 1 % der Zeit, würde ein Modell, das in 100 % der Fälle „negativ“ vorhersagt, eine Genauigkeit von 99 % erzielen, obwohl es nutzlos ist.

Trefferquote oder Rate richtig positiver Ergebnisse

Die Rate richtig positiver Ergebnisse (True Positive Rate, TPR), also der Anteil aller tatsächlich positiven Ergebnisse, die korrekt als positiv klassifiziert wurden, wird auch als Trefferquote bezeichnet.

Die Trefferquote ist mathematisch definiert als:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Falsch negative Ergebnisse sind tatsächlich positive Ergebnisse, die fälschlicherweise als negativ eingestuft wurden. Deshalb werden sie im Nenner aufgeführt. Im Beispiel für die Spamklassifizierung wird mit dem Rückruf der Anteil der Spam-E-Mails gemessen, die richtig als Spam klassifiziert wurden. Daher wird die Rückrufrate auch als Wahrscheinlichkeit der Erkennung bezeichnet: Sie beantwortet die Frage: „Welcher Anteil der Spam-E-Mails wird von diesem Modell erkannt?“

Ein hypothetisches perfektes Modell hätte keine Falsch-Negativ-Ergebnisse und daher eine Trefferquote (TPR) von 1, 0, was einer Erkennungsrate von 100% entspricht.

In einem unausgeglichenen Dataset, in dem die Anzahl der tatsächlich positiven Ergebnisse sehr, sehr niedrig ist, z. B. insgesamt 1 bis 2 Beispiele, ist der Recall weniger aussagekräftig und als Messwert weniger nützlich.

Rate falsch positiver Ergebnisse

Die Falsch-Positiv-Rate (FPR) ist der Anteil aller tatsächlich negativen Ergebnisse, die falsch als positiv klassifiziert wurden. Sie wird auch als Wahrscheinlichkeit eines Fehlalarms bezeichnet. Mathematisch wird sie so definiert:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Falsch positive Ergebnisse sind tatsächlich negative Ergebnisse, die falsch klassifiziert wurden. Deshalb werden sie im Nenner aufgeführt. Im Beispiel für die Spamklassifizierung misst FPR den Anteil an legitimen E-Mails, die fälschlicherweise als Spam klassifiziert wurden,oder die Rate der Fehlalarme des Modells.

Ein perfektes Modell hätte keine falsch positiven Ergebnisse und somit einen FPR von 0,0, was bedeutet, dass die FPR-Rate 0% beträgt.

Bei einem unbalancierten Datensatz, in dem die Anzahl der tatsächlichen Negativbeispiele sehr gering ist, z. B. 1–2 Beispiele insgesamt, ist die FPR als Messwert weniger aussagekräftig und nützlich.

Precision

Genauigkeit ist der Anteil aller positiven Klassifizierungen des Modells, die tatsächlich positiv sind. Mathematisch gesehen wird der BLEU-Score so definiert:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Im Beispiel für die Spamklassifizierung wird mit der Genauigkeit der Anteil der als Spam klassifizierten E-Mails gemessen, die tatsächlich Spam waren.

Ein hypothetisches perfektes Modell hätte keine falsch positiven Ergebnisse und daher eine Genauigkeit von 1,0.

Bei einem unbalancierten Datensatz, in dem die Anzahl der tatsächlichen positiven Ergebnisse sehr, sehr gering ist, z. B. 1–2 Beispiele insgesamt, ist die Genauigkeit als Messwert weniger aussagekräftig und nützlich.

Die Precision steigt, wenn die Anzahl der falsch positiven Ergebnisse sinkt, während sich der Recall verbessert, wenn die Anzahl der falsch negativen Ergebnisse sinkt. Wie im vorherigen Abschnitt gezeigt, führt eine Erhöhung des Klassifizierungsgrenzwerts jedoch in der Regel zu einer geringeren Anzahl falsch positiver Ergebnisse und zu einer höheren Anzahl falsch negativer Ergebnisse. Eine Verringerung des Grenzwerts hat dagegen die gegenteiligen Auswirkungen. Daher haben Precision und Recall oft ein umgekehrtes Verhältnis: Wenn Sie einen Wert verbessern, verschlechtert sich der andere.

Probieren Sie es selbst aus:

Was bedeutet „NaN“ in den Messwerten?

„NaN“ (Not a Number) wird angezeigt, wenn eine Division durch 0 erfolgt. Das kann bei allen diesen Messwerten passieren. Wenn beispielsweise TP und FP beide 0 sind, enthält die Formel für die Genauigkeit im Nenner die Zahl 0, was zu NaN führt. In einigen Fällen kann NaN auf eine perfekte Leistung hinweisen und durch eine Punktzahl von 1,0 ersetzt werden. Es kann aber auch auf ein Modell zurückzuführen sein, das praktisch nutzlos ist. Ein Modell, das beispielsweise nie positiv vorhersagt, hätte 0 TPs und 0 FPs, sodass eine Berechnung seiner Genauigkeit zu NaN führen würde.

Auswahl des Messwerts und Vor- und Nachteile

Welche Messwerte Sie bei der Bewertung des Modells priorisieren und einen Grenzwert festlegen, hängt von den Kosten, Vorteilen und Risiken des jeweiligen Problems ab. Im Beispiel für die Spamklassifizierung ist es oft sinnvoll, den Recall zu priorisieren, also alle Spam-E-Mails zu erfassen, oder die Präzision, um sicherzustellen, dass E-Mails mit dem Label „Spam“ tatsächlich Spam sind, oder eine Balance zwischen den beiden, die über einem bestimmten Mindestgenauigkeitsgrad liegt.

Messwert Anleitung
Genauigkeit

Verwenden Sie dies als grober Indikator für den Fortschritt/die Konvergenz des Modelltrainings für ausgewogene Datasets.

Verwenden Sie diesen Messwert nur in Kombination mit anderen Messwerten, um die Modellleistung zu beurteilen.

Nicht für unausgewogene Datensätze geeignet. Verwenden Sie einen anderen Messwert.

Recall
(Rate echt positiver Ergebnisse)
Verwenden Sie diese Option, wenn falsch negative Ergebnisse teurer sind als falsch positive.
Rate falsch positiver Ergebnisse Verwenden Sie diese Option, wenn falsch positive Ergebnisse teurer sind als falsch negative Ergebnisse.
Precision Verwenden Sie diese Option, wenn es sehr wichtig ist, dass positive Vorhersagen genau sind.

(Optional, fortgeschrittene Nutzer) F1-Wert

Der F1-Wert ist der harmonische Mittelwert (eine Art Mittelwert) von Precision und Recall.

Mathematisch gesehen ergibt sich der Wert aus:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Dieser Messwert gleicht die Bedeutung von Precision und Recall aus und ist bei Datensätzen mit ungleicher Klassenverteilung vorzuziehen. Wenn Precision und Recall beide den Wert 1,0 haben, hat auch F1 den Wert 1,0. Allgemein gilt: Wenn Precision und Recall nahe beieinander liegen, liegt auch der F1-Wert nahe bei ihrem Wert. Wenn sich Genauigkeit und Trefferquote stark unterscheiden, ähnelt der F1-Wert dem schlechteren Messwert.

Übung: Wissen testen

Ein Modell gibt 5 TP, 6 TN, 3 FP und 2 FN aus. Berechnen Sie den Recall.
0,714
Die Erinnerung wird als \(\frac{TP}{TP+FN}=\frac{5}{7}\)berechnet.
0,455
Bei der Trefferquote werden alle tatsächlich positiven Ergebnisse berücksichtigt, nicht alle korrekten Klassifizierungen. Die Formel für die Erinnerung lautet \(\frac{TP}{TP+FN}\).
0,625
Bei der Trefferquote werden alle tatsächlich positiven Ergebnisse berücksichtigt, nicht alle positiven Klassifizierungen. Die Formel für die Erinnerung lautet \(\frac{TP}{TP+FN}\)
Ein Modell gibt 3 TP, 4 TN, 2 FP und 1 FN aus. Berechnen Sie die Genauigkeit.
0,6
Die Genauigkeit wird als \(\frac{TP}{TP+FP}=\frac{3}{5}\)berechnet.
0,75
Bei der Genauigkeit werden alle positiven Klassifizierungen berücksichtigt, nicht alle tatsächlich positiven. Die Formel für die Genauigkeit lautet \(\frac{TP}{TP+FP}\).
0,429
Bei der Genauigkeit werden alle positiven Klassifizierungen berücksichtigt, nicht alle korrekten Klassifizierungen. Die Formel für die Genauigkeit lautet \(\frac{TP}{TP+FP}\)
Sie erstellen einen binären Klassifikator, der Fotos von Insektenfallen auf gefährliche invasive Arten prüft. Wenn das Modell die Art erkennt, wird der diensthabende Entomologe benachrichtigt. Eine frühzeitige Erkennung dieses Insekts ist entscheidend, um eine Plage zu verhindern. Ein falscher Alarm (falsch positives Ergebnis) ist einfach zu handhaben: Der Insektenkundler erkennt, dass das Foto falsch klassifiziert wurde, und markiert es entsprechend. Für welchen Messwert sollte dieses Modell bei einer akzeptablen Genauigkeit optimiert werden?
Recall
In diesem Szenario sind Falschalarme (FP) kostengünstig und falsch-negative Ergebnisse sehr teuer. Daher ist es sinnvoll, die Trefferquote oder die Wahrscheinlichkeit der Erkennung zu maximieren.
Rate falsch positiver Ergebnisse (FPR)
In diesem Szenario sind Fehlalarme (FP) kostengünstig. Es ist nicht sinnvoll, sie zu minimieren und dabei das Risiko, tatsächlich positive Ergebnisse zu verpassen.
Precision
In diesem Szenario sind Fehlalarme nicht besonders schädlich. Daher macht es keinen Sinn, die Richtigkeit positiver Klassifizierungen zu verbessern.