Anhand von Richtig- und Falsch-Positiven und -Negativen werden verschiedene nützliche Metriken für die Bewertung von Modellen. Welche Bewertungsmesswerte am wichtigsten sind hängt vom jeweiligen Modell und der spezifischen Aufgabe ab, Fehlklassifizierungen haben und ob das Dataset ausgewogen oder unausgewogen sind.
Alle Messwerte in diesem Abschnitt werden mit einem einzigen festen Schwellenwert berechnet, und ändern sich, wenn sich der Grenzwert ändert. Sehr oft stimmen Nutzende die um einen dieser Messwerte zu optimieren.
Genauigkeit
Die Genauigkeit ist der Anteil aller Klassifizierungen, die richtig waren, ob positiv oder negativ. Es ist mathematisch definiert als:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Im Beispiel für die Spamklassifizierung misst die Genauigkeit den Anteil aller E-Mails korrekt klassifiziert.
Ein perfektes Modell hätte keine falsch positiven und keine falsch negativen Ergebnisse eine Genauigkeit von 1, 0 oder 100%.
Weil alle vier Ergebnisse der Wahrheitsmatrix (TP, FP, TN, FN) mit einem ausgeglichenen mit einer ähnlichen Anzahl von Beispielen in beiden Klassen, kann die Genauigkeit sind ein grobes Maß für die Modellqualität. Aus diesem Grund ist es oft Der Standardbewertungsmesswert, der für generische oder nicht angegebene Modelle verwendet wird allgemeine oder nicht spezifizierte Aufgaben ausführen.
Wenn das Dataset jedoch unausgewogen ist, oder wenn eine Art von Fehler (FN oder FP) teurer ist als die andere, nämlich Bei den meisten realen Anwendungen ist es besser, eine Optimierung für eine der die anderen Messwerte.
Bei stark unausgewogenen Datasets, bei denen eine Klasse sehr selten vorkommt, wird beispielsweise 1% der würde ein Modell, das in 100 % der Fälle negative Zahlen vorhersagt, obwohl sie nutzlos sind.
Recall oder Rate richtig positiver Ergebnisse
Die Rate wirklich positiver Ergebnisse (TPR) oder den Anteil aller tatsächlich positiven Ergebnisse, richtig als positiv klassifiziert wurden, wird auch als Recall.
Die Trefferquote ist mathematisch definiert als:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Falsch negative Ergebnisse sind tatsächliche positive Ergebnisse, die fälschlicherweise als negative klassifiziert wurden. warum sie im Nenner stehen. Im Beispiel für die Spamklassifizierung Recall misst den Anteil der Spam-E-Mails, die korrekt als Spam. Aus diesem Grund wird für „Recall“ ein anderer Name für Wahrscheinlichkeit der Erkennung verwendet. beantwortet die Frage "Welcher Anteil der Spam-E-Mails wird modellieren?“
Ein hypothetisch perfektes Modell hätte null falsch negative Ergebnisse und somit 1, 0, einer Erkennungsrate von 100 %.
In einem unausgeglichenen Dataset, bei dem die Anzahl der tatsächlich positiven Ergebnisse sehr, sehr niedrig, sagen wir 1 bis 2 Beispiele insgesamt, ist die Trefferquote weniger aussagekräftig und weniger nützlich. als Metrik.
Rate falsch positiver Ergebnisse
Die Rate falsch positiver Ergebnisse (FPR) ist der Anteil aller tatsächlich negativen Elemente, die falsch klassifiziert wurden auch als Wahrscheinlichkeit eines Fehlalarms bezeichnet. Es ist mathematisch definiert als:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Falsch positive Ergebnisse sind tatsächliche negative Ergebnisse, die falsch klassifiziert wurden. im Nenner angezeigt werden. Im Beispiel für die Spamklassifizierung misst das FPR die Anteil legitimer E-Mails, die fälschlicherweise als Spam eingestuft wurden, oder der Fehlalarme ermittelt.
Ein perfektes Modell hätte keine falsch positiven Ergebnisse und somit einen FPR von 0,0. also eine Fehlalarmrate von 0 %.
In einem unausgewogenen Dataset, in dem die Anzahl der tatsächlichen negativen Ergebnisse sehr, sehr stark ist, insgesamt ein bis zwei Beispiele haben, ist FPR weniger aussagekräftig und weniger nützlich. als Metrik.
Precision
Präzision ist der Anteil aller positiven Klassifizierungen des Modells. die tatsächlich positiv sind. Sie ist mathematisch so definiert:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Beim Beispiel für die Spamklassifizierung misst die Genauigkeit den Anteil der E-Mails. die als Spam klassifiziert wurden.
Ein hypothetisch perfektes Modell hätte keine falsch positiven Ergebnisse und somit Genauigkeit 1,0.
In einem unausgewogenen Dataset, bei dem die Anzahl der tatsächlich positiven Ergebnisse sehr, sehr insgesamt ein bis zwei Beispiele haben, ist die Genauigkeit weniger aussagekräftig und weniger nützlich. als Metrik.
Die Precision verbessert sich, wenn die Zahl der falsch positiven Ergebnisse sinkt, während die Trefferquote verbessert wird, wenn Die Zahl der falsch negativen Ergebnisse nimmt ab. Aber wie im vorherigen Abschnitt gesehen, Klassifizierungsschwellenwert tendenziell die Anzahl der falsch positiven Ergebnisse die Anzahl der falsch negativen Ergebnisse erhöhen, während das Verringern des Grenzwerts gegensätzliche Effekte. Daher zeigen Precision und Recall oft einen Kehrwert Beziehung, bei der die Verbesserung des einen die andere verschlimmert.
Probieren Sie es selbst aus:
Was bedeutet NaN in den Messwerten?
NaN oder "not a number" (keine Zahl) wird angezeigt, wenn Sie durch 0 dividieren. mit jedem dieser Messwerte. Wenn z. B. sowohl TP als auch FP 0 sind, die Formel für Genauigkeit 0 im Nenner hat, was zu NaN führt. Während NaN kann in einigen Fällen auf eine perfekte Leistung hinweisen und durch eine Bewertung von 1,0 ersetzt wird, kann sie auch von einem Modell stammen, nutzlos. Ein Modell, das beispielsweise nie positive Vorhersagen prognostiziert, hätte 0 TPs. und 0 FPs. Somit würde eine Berechnung der Genauigkeit zu NaN führen.
Auswahl des Messwerts und Vor- und Nachteile
Die Messwerte, die Sie bei der Bewertung des Modells priorisieren möchten, und Die Auswahl eines Schwellenwerts hängt von den Kosten, Nutzen und Risiken des spezifisches Problem zu lösen. Bei der Spamklassifizierung wird häufig verhindert, die Erinnerung zu priorisieren, alle Spam-E-Mails auszusortieren, um sicherzustellen, dass es sich bei E-Mails mit Spam-Label eine Balance zwischen den beiden Werten, die über einer minimalen Genauigkeit liegt.
Messwert | Anleitung |
---|---|
Genauigkeit | Als groben Indikator für das Modell verwenden Trainingsfortschritt/-konvergenz für ausgewogene Datasets. Verwenden Sie dieses Modell nur in Kombination mit anderen Messwerten, um die Modellleistung zu steigern. Vermeiden Sie dies bei unausgewogenen Datasets. Sie sollten einen anderen Messwert verwenden. |
Recall (Rate echt positiver Ergebnisse) |
Verwenden, wenn falsch negative Ergebnisse höher sind kostspieliger als falsch positive Ergebnisse. |
Rate falsch positiver Ergebnisse | Verwenden, wenn falsch positive Ergebnisse teurer als falsch negative Ergebnisse. |
Precision | Verwenden Sie diese Option, wenn es für positive Vorhersagen zu treffen. |
F1-Wert (optional, erweitert)
Der F1-Wert ist das harmonische Mittel (ein Precision und Recall.
Mathematisch ist dies gegeben durch:
Dieser Messwert gleicht die Bedeutung von Precision und Recall gegeneinander ab. bei Datasets mit klassenunausgeglichenen Datasets. Wenn Precision und Recall beide den perfekten Wert von 1,0 haben, hat F1 ebenfalls eine perfekte Punktzahl. von 1,0. Im Allgemeinen gilt: Wenn Precision und Recall nah am Wert liegen, wird F1 ihrem Wert sehr nahe kommen. Wenn Precision und Recall weit auseinander liegen, wird F1 denen der Messwert, der schlechter ist, ähnlich ist.