Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte

Richtig und falsch positive und negative Ergebnisse werden verwendet, um mehrere nützliche Messwerte zur Bewertung von Modellen zu berechnen. Welche Bewertungsmesswerte am aussagekräftigsten sind, hängt vom jeweiligen Modell und der jeweiligen Aufgabe, den Kosten verschiedener Falschklassifizierungen und davon ab, ob das Dataset ausgeglichen oder unausgeglichen ist.

Alle Messwerte in diesem Abschnitt werden anhand eines einzelnen festen Schwellenwerts berechnet und ändern sich, wenn sich der Schwellenwert ändert. Sehr oft passt der Nutzer den Schwellenwert an, um einen dieser Messwerte zu optimieren.

Genauigkeit

Die Genauigkeit ist der Anteil aller Klassifizierungen, die richtig waren, unabhängig davon, ob sie positiv oder negativ waren. Sie wird mathematisch so definiert:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Im Beispiel zur Spam-Klassifizierung wird mit der Genauigkeit der Anteil aller E‑Mails gemessen, die richtig klassifiziert wurden.

Ein perfektes Modell hätte keine falsch positiven und keine falsch negativen Ergebnisse und daher eine Genauigkeit von 1,0 oder 100%.

Da alle vier Ergebnisse aus der Wahrheitsmatrix (richtig positiv, falsch positiv, richtig negativ, falsch negativ) berücksichtigt werden, kann die Genauigkeit bei einem ausgeglichenen Datensatz mit einer ähnlichen Anzahl von Beispielen in beiden Klassen als grobes Maß für die Modellqualität dienen. Aus diesem Grund ist es oft der Standardmesswert für die Bewertung von generischen oder nicht spezifizierten Modellen, die generische oder nicht spezifizierte Aufgaben ausführen.

Wenn der Datensatz jedoch unausgewogen ist oder eine Art von Fehler (FN oder FP) kostspieliger ist als die andere, was in den meisten realen Anwendungen der Fall ist, ist es besser, stattdessen einen der anderen Messwerte zu optimieren.

Bei stark unausgewogenen Datasets, in denen eine Klasse sehr selten vorkommt (z. B. in 1% der Fälle), würde ein Modell, das in 100% der Fälle „negativ“ vorhersagt, eine Genauigkeit von 99% erreichen, obwohl es nutzlos ist.

Recall oder Rate richtig positiver Ergebnisse

Die Rate richtig positiver Ergebnisse (True Positive Rate, TPR) oder der Anteil aller tatsächlich positiven Ergebnisse, die korrekt als positiv klassifiziert wurden, wird auch als Trefferquote bezeichnet.

Der Recall wird mathematisch so definiert:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Falsch negative Ergebnisse sind tatsächlich positive Ergebnisse, die fälschlicherweise als negativ klassifiziert wurden. Daher werden sie im Nenner berücksichtigt. Im Beispiel zur Spam-Klassifizierung wird mit dem Recall-Wert der Anteil der Spam-E‑Mails gemessen, die korrekt als Spam klassifiziert wurden. Aus diesem Grund wird der Recall auch als Erkennungswahrscheinlichkeit bezeichnet: Er beantwortet die Frage, welcher Anteil der Spam-E‑Mails von diesem Modell erkannt wird.

Ein hypothetisches perfektes Modell hätte keine falsch negativen Ergebnisse und daher einen Recall (TPR) von 1, 0, d. h. eine Erkennungsrate von 100 %.

Bei einem unausgewogenen Dataset, in dem die Anzahl der tatsächlich positiven Ergebnisse sehr gering ist, ist der Recall ein aussagekräftigerer Messwert als die Genauigkeit, da er die Fähigkeit des Modells misst, alle positiven Instanzen richtig zu identifizieren. Bei Anwendungen wie der Vorhersage von Krankheiten ist es entscheidend, die positiven Fälle richtig zu identifizieren. Ein falsch negatives Ergebnis hat in der Regel schwerwiegendere Folgen als ein falsch positives Ergebnis. Ein konkretes Beispiel für den Vergleich von Messwerten für die Trefferquote und die Genauigkeit finden Sie in den Anmerkungen zur Definition von Trefferquote.

Rate falsch positiver Ergebnisse

Die Falsch-Positiv-Rate (FPR) ist der Anteil aller tatsächlich negativen Ergebnisse, die falsch als positiv klassifiziert wurden. Sie wird auch als Wahrscheinlichkeit eines Fehlalarms bezeichnet. Sie wird mathematisch so definiert:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Falsch positive Ergebnisse sind tatsächlich negative Ergebnisse, die falsch klassifiziert wurden. Daher werden sie im Nenner berücksichtigt. Im Beispiel für die Spamklassifizierung wird mit der Falsch-Positiv-Rate der Anteil der legitimen E‑Mails gemessen, die fälschlicherweise als Spam klassifiziert wurden,oder die Rate der Fehlalarme des Modells.

Ein perfektes Modell hätte keine Falsch-Positiv-Ergebnisse und daher eine Falsch-Positiv-Rate von 0,0 – also eine Falschmeldungsrate von 0 %.

Bei einem unausgeglichenen Dataset ist die Falsch-Positiv-Rate (FPR) in der Regel ein aussagekräftigerer Messwert als die Genauigkeit. Wenn die Anzahl der tatsächlichen Negativwerte jedoch sehr niedrig ist, ist die Falsch-Positiv-Rate aufgrund ihrer Volatilität möglicherweise keine ideale Wahl. Wenn es in einem Dataset beispielsweise nur vier tatsächliche Negativwerte gibt, führt eine Falschklassifizierung zu einer Falsch-Positiv-Rate von 25%, während eine zweite Falschklassifizierung die Falsch-Positiv-Rate auf 50 % ansteigen lässt. In solchen Fällen ist die Precision (siehe unten) möglicherweise ein stabilerer Messwert, um die Auswirkungen von falsch positiven Ergebnissen zu bewerten.

Precision

Precision (Präzision) ist der Anteil aller positiven Klassifizierungen des Modells, die tatsächlich positiv sind. Mathematisch wird sie so definiert:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Im Beispiel für die Spam-Klassifizierung wird mit der Präzision der Anteil der als Spam klassifizierten E‑Mails gemessen, die tatsächlich Spam waren.

Ein hypothetisches perfektes Modell hätte keine falsch positiven Ergebnisse und daher eine Genauigkeit von 1,0.

Bei einem unausgewogenen Dataset, in dem die Anzahl der tatsächlichen positiven Ergebnisse sehr gering ist (z. B. insgesamt 1–2 Beispiele), ist die Genauigkeit als Messwert weniger aussagekräftig und nützlich.

Die Precision verbessert sich, wenn die Anzahl der falsch positiven Ergebnisse sinkt, und der Recall verbessert sich, wenn die Anzahl der falsch negativen Ergebnisse sinkt. Wie im vorherigen Abschnitt zu sehen ist, führt eine Erhöhung des Klassifizierungsschwellenwerts in der Regel zu einer Verringerung der Anzahl falsch positiver Ergebnisse und zu einer Erhöhung der Anzahl falsch negativer Ergebnisse. Eine Verringerung des Schwellenwerts hat die gegenteiligen Auswirkungen. Daher besteht zwischen Precision und Recall häufig ein umgekehrtes Verhältnis: Wenn Sie einen der beiden Werte verbessern, verschlechtert sich der andere.

Probieren Sie es selbst aus:

Was bedeutet „NaN“ in den Messwerten?

„NaN“ oder „Not a Number“ (Keine Zahl) wird angezeigt, wenn durch 0 dividiert wird. Das kann bei allen diesen Messwerten vorkommen. Wenn sowohl TP als auch FP 0 sind, hat die Formel für die Präzision beispielsweise 0 im Nenner, was zu NaN führt. In einigen Fällen kann NaN auf eine perfekte Leistung hinweisen und durch den Wert 1,0 ersetzt werden.Es kann aber auch von einem Modell stammen, das praktisch nutzlos ist. Ein Modell, das nie positiv vorhersagt, hätte beispielsweise 0 TPs und 0 FPs. Die Berechnung der Genauigkeit würde also zu „NaN“ führen.

Messwertauswahl und Kompromisse

Die Messwerte, die Sie bei der Bewertung des Modells und der Auswahl eines Grenzwerts priorisieren, hängen von den Kosten, Vorteilen und Risiken des jeweiligen Problems ab. Im Beispiel zur Spam-Klassifizierung ist es oft sinnvoll, die Erinnerung zu priorisieren, um alle Spam-E‑Mails zu erfassen, oder die Präzision, um sicherzustellen, dass als Spam gekennzeichnete E‑Mails tatsächlich Spam sind, oder ein Gleichgewicht zwischen beiden über einem bestimmten Mindestgenauigkeitsniveau.

Messwert	Anleitung
Genauigkeit	Kann als grober Indikator für den Fortschritt/die Konvergenz des Modelltrainings für ausgeglichene Datasets verwendet werden. Für die Modellleistung nur in Kombination mit anderen Messwerten verwenden. Vermeiden Sie unausgewogene Datasets. Verwenden Sie einen anderen Messwert.
Trefferquote (Rate echt positiver Ergebnisse)	Wird verwendet, wenn falsch negative Ergebnisse teurer sind als falsch positive.
Rate falsch positiver Ergebnisse	Wird verwendet, wenn falsch positive Ergebnisse teurer sind als falsch negative.
Precision	Verwenden Sie diese Option, wenn es sehr wichtig ist, dass positive Vorhersagen genau sind.

(Optional, erweitert) F1-Wert

Der F1-Wert ist der harmonische Mittelwert (eine Art Durchschnitt) von Precision und Recall.

Mathematisch wird sie so angegeben:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Dieser Messwert berücksichtigt sowohl Precision als auch Recall und ist für Datasets mit ungleichmäßiger Klassenverteilung besser geeignet als die Genauigkeit. Wenn sowohl Precision als auch Recall den Bestwert 1,0 haben, hat auch der F1-Wert den Bestwert 1,0. Wenn Precision und Recall ähnliche Werte haben, ist auch der F1-Wert ähnlich. Wenn Genauigkeit und Trefferquote weit auseinanderliegen, ähnelt der F1-Wert dem schlechteren Messwert.

Übung: Wissen testen

Ein Modell gibt 5 richtig positive, 6 richtig negative, 3 falsch positive und 2 falsch negative Ergebnisse aus. Recall berechnen

0,714

Der Recall wird so berechnet: \(\frac{TP}{TP+FN}=\frac{5}{7}\).

0,455

Bei der Trefferquote werden alle tatsächlichen positiven Ergebnisse berücksichtigt, nicht alle korrekten Klassifizierungen. Die Formel für den Recall ist \(\frac{TP}{TP+FN}\).

0,625

Bei der Trefferquote werden alle tatsächlichen positiven Ergebnisse berücksichtigt, nicht alle positiven Klassifizierungen. Die Formel für den Recall lautet \(\frac{TP}{TP+FN}\).

Ein Modell gibt 3 TP, 4 TN, 2 FP und 1 FN aus. Berechnen Sie die Precision.

0,6

Die Genauigkeit wird so berechnet: \(\frac{TP}{TP+FP}=\frac{3}{5}\).

0,75

Bei der Precision werden alle positiven Klassifizierungen berücksichtigt, nicht alle tatsächlichen positiven Ergebnisse. Die Formel für die Genauigkeit lautet \(\frac{TP}{TP+FP}\).

0,429

Bei der Precision werden alle positiven Klassifizierungen berücksichtigt, nicht alle korrekten Klassifizierungen. Die Formel für die Genauigkeit lautet \(\frac{TP}{TP+FP}\).

Sie entwickeln einen binären Klassifikator, der Fotos von Insektenfallen darauf prüft, ob eine gefährliche invasive Art vorhanden ist. Wenn das Modell die Art erkennt, wird der diensthabende Entomologe (Insektenforscher) benachrichtigt. Die frühzeitige Erkennung dieses Insekts ist entscheidend, um einen Befall zu verhindern. Ein Fehlalarm (falsch positives Ergebnis) ist einfach zu handhaben: Der Entomologe sieht, dass das Foto falsch klassifiziert wurde, und markiert es entsprechend. Angenommen, das Modell hat ein akzeptables Genauigkeitsniveau. Für welchen Messwert sollte es optimiert werden?

Recall

In diesem Szenario sind Falschmeldungen (FP) kostengünstig und falsch-negative Ergebnisse sehr kostspielig. Daher ist es sinnvoll, die Trefferquote oder die Wahrscheinlichkeit der Erkennung zu maximieren.

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

In diesem Szenario sind Falschmeldungen (FP) kostengünstig. Es ist nicht sinnvoll, sie zu minimieren, wenn dadurch echte positive Ergebnisse übersehen werden.

Precision

In diesem Szenario sind Fehlalarme (FP) nicht besonders schädlich. Es ist also nicht sinnvoll, die Richtigkeit positiver Klassifizierungen zu verbessern.

Zurück

Grenzwerte und die Wahrheitsmatrix (12 Min.)

Weiter

ROC und AUC (10 Min.)

Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Genauigkeit

Recall oder Rate richtig positiver Ergebnisse

Rate falsch positiver Ergebnisse

Precision

Was bedeutet „NaN“ in den Messwerten?

Messwertauswahl und Kompromisse

(Optional, erweitert) F1-Wert

Übung: Wissen testen

Klassifizierung: Genauigkeit, Trefferquote, Präzision und zugehörige Messwerte