Richtige und falsche positive und negative Ergebnisse werden verwendet, um mehrere nützliche Messwerte zur Bewertung von Modellen zu berechnen. Welche Bewertungsmesswerte am aussagekräftigsten sind, hängt vom jeweiligen Modell und der spezifischen Aufgabe, den Kosten für verschiedene Fehlklassifizierungen sowie davon ab, ob das Dataset ausgewogen oder unausgewogen ist.
Alle Messwerte in diesem Abschnitt werden anhand eines einzelnen festen Grenzwerts berechnet und ändern sich, wenn sich der Grenzwert ändert. Sehr oft passt der Nutzer den Grenzwert an, um einen dieser Messwerte zu optimieren.
Genauigkeit
Die Genauigkeit ist der Anteil aller korrekten Klassifizierungen, unabhängig davon, ob sie positiv oder negativ waren. Mathematisch wird sie so definiert:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Im Beispiel für die Spamklassifizierung wird mit der Genauigkeit der Anteil aller E-Mails gemessen, die richtig klassifiziert wurden.
Ein perfektes Modell hätte keine falsch positiven und keine falsch negativen Ergebnisse und daher eine Genauigkeit von 1,0 oder 100 %.
Da die Genauigkeit alle vier Ergebnisse aus der Verwechslungsmatrix (richtig positiv, falsch positiv, richtig negativ, falsch negativ) berücksichtigt, kann sie bei einem ausgewogenen Datensatz mit einer ähnlichen Anzahl von Beispielen in beiden Klassen als grobes Maß für die Modellqualität dienen. Aus diesem Grund ist er oft der Standardbewertungsmesswert für allgemeine oder nicht näher spezifizierte Modelle, die allgemeine oder nicht näher spezifizierte Aufgaben ausführen.
Wenn der Datensatz jedoch unausgewogen ist oder eine Art von Fehler (falsch-negativ oder falsch-positiv) teurer ist als die andere, was in den meisten realen Anwendungen der Fall ist, sollten Sie stattdessen einen der anderen Messwerte optimieren.
Bei stark unausgewogenen Datasets, in denen eine Klasse sehr selten vorkommt, z. B. 1 % der Zeit, würde ein Modell, das in 100 % der Fälle „negativ“ vorhersagt, eine Genauigkeit von 99 % erzielen, obwohl es nutzlos ist.
Trefferquote oder Rate richtig positiver Ergebnisse
Die Rate richtig positiver Ergebnisse (True Positive Rate, TPR), also der Anteil aller tatsächlich positiven Ergebnisse, die korrekt als positiv klassifiziert wurden, wird auch als Trefferquote bezeichnet.
Die Trefferquote ist mathematisch definiert als:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Falsch negative Ergebnisse sind tatsächlich positive Ergebnisse, die fälschlicherweise als negativ eingestuft wurden. Deshalb werden sie im Nenner aufgeführt. Im Beispiel für die Spamklassifizierung wird mit dem Rückruf der Anteil der Spam-E-Mails gemessen, die richtig als Spam klassifiziert wurden. Daher wird die Rückrufrate auch als Wahrscheinlichkeit der Erkennung bezeichnet: Sie beantwortet die Frage: „Welcher Anteil der Spam-E-Mails wird von diesem Modell erkannt?“
Ein hypothetisch perfektes Modell hätte null falsch negative Ergebnisse und somit eine Recall-Rate (TPR) von 1, 0, was einer Erkennungsrate von 100% entspricht.
Bei einem unbalancierten Datensatz, in dem die Anzahl der tatsächlichen positiven Ergebnisse sehr, sehr gering ist, z. B. 1–2 Beispiele insgesamt, ist die Rückrufrate als Messwert weniger aussagekräftig und nützlich.
Rate falsch positiver Ergebnisse
Die Falsch-Positiv-Rate (FPR) ist der Anteil aller tatsächlich negativen Ergebnisse, die falsch als positiv klassifiziert wurden. Sie wird auch als Wahrscheinlichkeit eines Fehlalarms bezeichnet. Mathematisch wird sie so definiert:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Falsch positive Ergebnisse sind tatsächlich negative Ergebnisse, die falsch klassifiziert wurden. Deshalb werden sie im Nenner aufgeführt. Im Beispiel für die Spamklassifizierung wird mit der FPR der Anteil der legitimen E-Mails gemessen, die fälschlicherweise als Spam eingestuft wurden, also die Rate der Falschalarme des Modells.
Ein perfektes Modell hätte keine Falschalarme und daher eine FPR von 0,0, was einer Falschalarmrate von 0 % entspricht.
Bei einem unbalancierten Datensatz, in dem die Anzahl der tatsächlichen Negativbeispiele sehr gering ist, z. B. 1–2 Beispiele insgesamt, ist die FPR als Messwert weniger aussagekräftig und nützlich.
Precision
Genauigkeit ist der Anteil aller positiven Klassifizierungen des Modells, die tatsächlich positiv sind. Mathematisch gesehen wird der BLEU-Score so definiert:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Beim Beispiel für die Spamklassifizierung misst die Genauigkeit den Anteil der als Spam klassifizierten E-Mails, die tatsächlich Spam waren.
Ein hypothetisches perfektes Modell hätte keine falsch positiven Ergebnisse und daher eine Genauigkeit von 1,0.
Bei einem unbalancierten Datensatz, in dem die Anzahl der tatsächlichen positiven Ergebnisse sehr, sehr gering ist, z. B. 1–2 Beispiele insgesamt, ist die Genauigkeit als Messwert weniger aussagekräftig und nützlich.
Die Precision steigt, wenn die Anzahl der falsch positiven Ergebnisse sinkt, während sich der Recall verbessert, wenn die Anzahl der falsch negativen Ergebnisse sinkt. Wie im vorherigen Abschnitt gezeigt, führt eine Erhöhung des Klassifizierungsgrenzwerts jedoch in der Regel zu einer geringeren Anzahl falsch positiver Ergebnisse und zu einer höheren Anzahl falsch negativer Ergebnisse. Eine Verringerung des Grenzwerts hat dagegen die gegenteiligen Auswirkungen. Daher haben Precision und Recall oft ein umgekehrtes Verhältnis: Wenn Sie einen Wert verbessern, verschlechtert sich der andere.
Probieren Sie es selbst aus:
Was bedeutet „NaN“ in den Messwerten?
„NaN“ (Not a Number) wird angezeigt, wenn eine Division durch 0 erfolgt. Das kann bei allen diesen Messwerten passieren. Wenn beispielsweise TP und FP beide 0 sind, enthält die Formel für die Genauigkeit im Nenner die Zahl 0, was zu NaN führt. In einigen Fällen kann NaN auf eine perfekte Leistung hinweisen und durch eine Punktzahl von 1,0 ersetzt werden. Es kann aber auch auf ein Modell zurückzuführen sein, das praktisch nutzlos ist. Ein Modell, das beispielsweise nie positiv vorhersagt, hätte 0 TPs und 0 FPs, sodass eine Berechnung seiner Genauigkeit zu NaN führen würde.
Auswahl des Messwerts und Kompromisse
Welche Messwerte Sie bei der Bewertung des Modells priorisieren und einen Grenzwert festlegen, hängt von den Kosten, Vorteilen und Risiken des jeweiligen Problems ab. Im Beispiel für die Spamklassifizierung ist es oft sinnvoll, den Recall zu priorisieren, also alle Spam-E-Mails zu erfassen, oder die Präzision, um sicherzustellen, dass E-Mails mit dem Label „Spam“ tatsächlich Spam sind, oder eine Balance zwischen den beiden, die über einem bestimmten Mindestgenauigkeitsgrad liegt.
Messwert | Anleitung |
---|---|
Genauigkeit | Verwenden Sie dies als grober Indikator für den Fortschritt/die Konvergenz des Modelltrainings für ausgewogene Datasets. Verwenden Sie diesen Messwert nur in Kombination mit anderen Messwerten, um die Modellleistung zu beurteilen. Nicht für unausgewogene Datensätze geeignet. Verwenden Sie einen anderen Messwert. |
Recall (Rate echt positiver Ergebnisse) |
Verwenden Sie diese Option, wenn falsch negative Ergebnisse teurer sind als falsch positive. |
Rate falsch positiver Ergebnisse | Verwenden Sie diese Option, wenn falsch positive Ergebnisse teurer sind als falsch negative Ergebnisse. |
Precision | Verwenden Sie diese Option, wenn es sehr wichtig ist, dass positive Vorhersagen genau sind. |
(Optional, fortgeschrittene Nutzer) F1-Wert
Der F1-Wert ist der harmonische Mittelwert (eine Art Mittelwert) von Precision und Recall.
Mathematisch gesehen ergibt sich der Wert aus:
Dieser Messwert gleicht die Bedeutung von Precision und Recall aus und ist bei Datensätzen mit ungleicher Klassenverteilung vorzuziehen. Wenn Precision und Recall beide den Wert 1,0 haben, hat auch F1 den Wert 1,0. Allgemein gilt: Wenn Precision und Recall nahe beieinander liegen, liegt auch der F1-Wert nahe bei ihrem Wert. Wenn sich Genauigkeit und Trefferquote stark unterscheiden, ähnelt der F1-Wert dem schlechteren Messwert.