Klassifizierung: Genauigkeit, Trefferquote, Genauigkeit und zugehörige Messwerte

Anhand von Richtig- und Falsch-Positiven und -Negativen werden verschiedene nützliche Metriken für die Bewertung von Modellen. Welche Bewertungsmesswerte am wichtigsten sind hängt vom jeweiligen Modell und der spezifischen Aufgabe ab, Fehlklassifizierungen haben und ob das Dataset ausgewogen oder unausgewogen sind.

Alle Messwerte in diesem Abschnitt werden mit einem einzigen festen Schwellenwert berechnet, und ändern sich, wenn sich der Grenzwert ändert. Sehr oft stimmen Nutzende die um einen dieser Messwerte zu optimieren.

Genauigkeit

Die Genauigkeit ist der Anteil aller Klassifizierungen, die richtig waren, ob positiv oder negativ. Es ist mathematisch definiert als:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Im Beispiel für die Spamklassifizierung misst die Genauigkeit den Anteil aller E-Mails korrekt klassifiziert.

Ein perfektes Modell hätte keine falsch positiven und keine falsch negativen Ergebnisse eine Genauigkeit von 1, 0 oder 100%.

Weil alle vier Ergebnisse der Wahrheitsmatrix (TP, FP, TN, FN) mit einem ausgeglichenen mit einer ähnlichen Anzahl von Beispielen in beiden Klassen, kann die Genauigkeit sind ein grobes Maß für die Modellqualität. Aus diesem Grund ist es oft Der Standardbewertungsmesswert, der für generische oder nicht angegebene Modelle verwendet wird allgemeine oder nicht spezifizierte Aufgaben ausführen.

Wenn das Dataset jedoch unausgewogen ist, oder wenn eine Art von Fehler (FN oder FP) teurer ist als die andere, nämlich Bei den meisten realen Anwendungen ist es besser, eine Optimierung für eine der die anderen Messwerte.

Bei stark unausgewogenen Datasets, bei denen eine Klasse sehr selten vorkommt, wird beispielsweise 1% der würde ein Modell, das in 100 % der Fälle negative Zahlen vorhersagt, obwohl sie nutzlos sind.

Recall oder Rate richtig positiver Ergebnisse

Die Rate wirklich positiver Ergebnisse (TPR) oder den Anteil aller tatsächlich positiven Ergebnisse, richtig als positiv klassifiziert wurden, wird auch als Recall.

Die Trefferquote ist mathematisch definiert als:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Falsch negative Ergebnisse sind tatsächliche positive Ergebnisse, die fälschlicherweise als negative klassifiziert wurden. warum sie im Nenner stehen. Im Beispiel für die Spamklassifizierung Recall misst den Anteil der Spam-E-Mails, die korrekt als Spam. Aus diesem Grund wird für „Recall“ ein anderer Name für Wahrscheinlichkeit der Erkennung verwendet. beantwortet die Frage "Welcher Anteil der Spam-E-Mails wird modellieren?“

Ein hypothetisch perfektes Modell hätte null falsch negative Ergebnisse und somit 1, 0, einer Erkennungsrate von 100 %.

In einem unausgewogenen Dataset, bei dem die Anzahl der tatsächlich positiven Ergebnisse sehr, sehr niedrig, sagen wir 1 bis 2 Beispiele insgesamt, ist die Trefferquote weniger aussagekräftig und weniger nützlich. als Metrik.

Rate falsch positiver Ergebnisse

Die Rate falsch positiver Ergebnisse (FPR) ist der Anteil aller tatsächlich negativen Elemente, die falsch klassifiziert wurden auch als Wahrscheinlichkeit eines Fehlalarms bezeichnet. Es ist mathematisch definiert als:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Falsch positive Ergebnisse sind tatsächliche negative Ergebnisse, die falsch klassifiziert wurden. im Nenner angezeigt werden. Im Beispiel für die Spamklassifizierung misst das FPR die Anteil legitimer E-Mails, die fälschlicherweise als Spam eingestuft wurden, oder der Fehlalarme ermittelt.

Ein perfektes Modell hätte keine falsch positiven Ergebnisse und somit einen FPR von 0,0. also eine Fehlalarmrate von 0 %.

In einem unausgewogenen Dataset, in dem die Anzahl der tatsächlichen negativen Ergebnisse sehr, sehr stark ist, insgesamt ein bis zwei Beispiele haben, ist FPR weniger aussagekräftig und weniger nützlich. als Metrik.

Precision

Präzision ist der Anteil aller positiven Klassifizierungen des Modells. die tatsächlich positiv sind. Sie ist mathematisch so definiert:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Beim Beispiel für die Spamklassifizierung misst die Genauigkeit den Anteil der E-Mails die als Spam klassifiziert wurden.

Ein hypothetisch perfektes Modell hätte keine falsch positiven Ergebnisse und somit Genauigkeit 1,0.

In einem unausgewogenen Dataset, bei dem die Anzahl der tatsächlich positiven Ergebnisse sehr, sehr insgesamt ein bis zwei Beispiele haben, ist die Genauigkeit weniger aussagekräftig und weniger nützlich. als Metrik.

Die Precision verbessert sich, wenn die Zahl der falsch positiven Ergebnisse sinkt, während die Trefferquote verbessert wird, wenn die Zahl der falsch negativen Ergebnisse sinkt. Aber wie im vorherigen Abschnitt gesehen, Klassifizierungsschwellenwert tendenziell die Anzahl der falsch positiven Ergebnisse die Anzahl der falsch negativen Ergebnisse erhöhen, während das Verringern des Grenzwerts gegensätzliche Effekte. Daher zeigen Precision und Recall oft einen Kehrwert Beziehung, bei der die Verbesserung des einen die andere verschlimmert.

Auswahl des Messwerts und Vor- und Nachteile

Die Messwerte, die Sie bei der Bewertung des Modells priorisieren möchten, und Die Auswahl eines Schwellenwerts hängt von den Kosten, Nutzen und Risiken des spezifisches Problem zu lösen. Bei der Spamklassifizierung wird häufig verhindert, die Erinnerung zu priorisieren, alle Spam-E-Mails auszusortieren, um sicherzustellen, dass es sich bei E-Mails mit Spam-Label eine Balance zwischen den beiden Werten, die über einer minimalen Genauigkeit liegt.

Messwert Anleitung
Genauigkeit

Als groben Indikator für das Modell verwenden Trainingsfortschritt/-konvergenz für ausgewogene Datasets.

Verwenden Sie dieses Modell nur in Kombination mit anderen Messwerten, um die Modellleistung zu steigern.

Vermeiden Sie dies bei unausgewogenen Datasets. Sie sollten einen anderen Messwert verwenden.

Recall
(Rate echt positiver Ergebnisse)
Verwenden, wenn falsch negative Ergebnisse höher sind kostspieliger als falsch positive Ergebnisse.
Rate falsch positiver Ergebnisse Verwenden, wenn falsch positive Ergebnisse teurer als falsch negative Ergebnisse.
Precision Verwenden Sie diese Option, wenn es für positive Vorhersagen zu treffen.

F1-Wert (optional, erweitert)

Der F1-Wert ist das harmonische Mittel (ein Precision und Recall.

Mathematisch ist dies gegeben durch:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Dieser Messwert gleicht die Bedeutung von Precision und Recall gegeneinander ab. bei Datasets mit klassenunausgeglichenen Datasets. Wenn Precision und Recall beide den perfekten Wert von 1,0 haben, hat F1 ebenfalls eine perfekte Punktzahl. von 1,0. Im Allgemeinen gilt: Wenn Precision und Recall nah am Wert liegen, wird F1 ihrem Wert sehr nahe kommen. Wenn Precision und Recall weit auseinander liegen, wird F1 denen der Messwert, der schlechter ist, ähnlich ist.

Übung: Wissenstest

Ein Modell gibt 5 TP, 6 TN, 3 FP und 2 FN aus. Berechnen Sie den Recall.
0,714
Die Trefferquote wird wie folgt berechnet: [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Die Recall berücksichtigt alle tatsächlichen positiven, nicht alle richtig Klassifizierungen. Die Formel für den Recall lautet [\frac{TP}{TP+FN}].
0,625
Die Recall berücksichtigt alle tatsächlichen positiven, nicht alle positiv. Klassifizierungen. Die Formel für den Recall lautet [\frac{TP}{TP+FN}]
Ein Modell gibt 3 TP, 4 TN, 2 FP und 1 FN aus. Berechnen Sie die Genauigkeit.
0,6
Die Genauigkeit wird als [\frac{TP}{TP+FP}=\frac{3}{5}] berechnet.
0,75
Bei der Genauigkeit werden alle positiven Klassifizierungen berücksichtigt, nicht alle tatsächliche Positive zu erkennen. Die Formel für die Genauigkeit lautet [\frac{TP}{TP+FP}].
0,429
Bei der Genauigkeit werden alle positiven Klassifizierungen berücksichtigt, nicht alle korrekte Klassifizierungen. Die Formel für die Genauigkeit lautet [\frac{TP}{TP+FP}]
Sie erstellen einen binären Klassifikator, der Fotos von Insektenfallen prüft ob eine gefährliche invasive Spezies existiert. Wenn das Modell erkennt, wird der zuständige Insektenforscher informiert. Früher dieses Insekts ist entscheidend, um einen Befall zu verhindern. A Ein falscher Alarm (falsch positives Ergebnis) ist leicht zu handhaben: Der Insektenkundler bemerkt, das Foto falsch klassifiziert wurde, und es entsprechend markiert. Unter Annahme eines akzeptablen Genauigkeitsstufe. Für welchen Messwert soll dieses Modell optimiert werden?
Recall
In diesem Szenario sind Fehlalarme kostengünstig und Ausschließende Elemente sind sehr kostspielig, daher ist es sinnvoll, die Recall-Funktion bzw. die Wahrscheinlichkeit -Erkennung.
Rate falsch positiver Ergebnisse (FPR)
In diesem Szenario sind Fehlalarme kostengünstig. Wird versucht zu minimieren und dabei die Gefahr, tatsächlich positive Ergebnisse zu verpassen, Sinn.
Precision
In diesem Szenario sind Fehlalarme nicht besonders wichtig, Es wird also versucht, die Richtigkeit positiver Klassifizierungen ergibt keinen Sinn.