I veri e i falsi positivi e negativi vengono utilizzati per calcolare diversi e metriche per la valutazione dei modelli. Quali sono le metriche di valutazione più importanti significativo dipende dal modello e dall'attività specifica, il costo di errori di classificazione diversi e se il set di dati è bilanciato sbilanciato.
Tutte le metriche di questa sezione vengono calcolate secondo una singola soglia fissa, e quando la soglia cambia. Molto spesso, l'utente regola soglia per ottimizzare una di queste metriche.
Accuratezza
La accuratezza è la proporzione le classificazioni corrette, positive o negative. È matematicamente definita come:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Nell'esempio di classificazione dello spam, l'accuratezza misura la frazione di tutti classificati in modo corretto.
Un modello perfetto avrebbe zero falsi positivi e zero falsi negativi e pertanto una precisione di 1, 0 o 100%.
Poiché incorpora tutti e quattro i risultati matrice di confusione (TP, FP, TN, FN), dato un bilanciamento con numeri simili di esempi in entrambe le classi, l'accuratezza può possono essere usati come misura approssimativa della qualità del modello. Per questo motivo, spesso è la metrica di valutazione predefinita utilizzata per i modelli generici o non specificati che eseguono attività generiche o non specificate.
Tuttavia, quando il set di dati è sbilanciato, oppure nei casi in cui un tipo di errore (FN o FP) è più costoso dell'altro, ovvero nel caso della maggior parte delle applicazioni reali, è meglio ottimizzare per una delle le altre metriche.
Nel caso di set di dati molto sbilanciati, dove una classe appare molto raramente, diciamo che l'1% l'ora, un modello che prevede un valore negativo del 100% delle volte ottiene un punteggio del 99% precisione, nonostante sia inutile.
Richiamo o tasso di veri positivi
Il tasso di veri positivi (TPR) o la proporzione di tutti i positivi effettivi che sono stati classificati correttamente come positivi, è anche noto come richiamo.
Il richiamo è matematicamente definito come:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
I falsi negativi sono veri positivi che sono stati erroneamente classificati come negativi, ovvero è per questo che appaiono nel denominatore. Nell'esempio di classificazione come spam, Il richiamo misura la frazione delle email di spam che sono state correttamente classificate come spam. spam. Questo è il motivo per cui un altro nome per il richiamo è probability of detection: risponde alla domanda "Quale frazione delle email di spam viene rilevata da questo modello?"
Un modello ipotetico perfetto non avrebbe falsi negativi, perciò richiamo (TPR) di 1, 0, cioè un tasso di rilevamento del 100%.
In un set di dati sbilanciato in cui il numero di positivi effettivi è molto, molto basso, diciamo che 1-2 esempi in totale, il richiamo è meno significativo e meno utile come metrica.
Percentuale di falsi positivi
Il tasso di falsi positivi (FPR). è la proporzione di tutti i negativi effettivi classificati erroneamente come positivi, nota anche come probabilità di falso allarme. È matematicamente definita come:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
I falsi positivi sono negativi reali che sono stati classificati erroneamente, ed è per questo che compaiono nel denominatore. Nell'esempio di classificazione dello spam, FPR misura la frazione di email legittime erroneamente classificate come spam; il tasso di falsi allarmi del modello.
Un modello perfetto avrebbe zero falsi positivi e quindi un FPR pari a 0,0, vale a dire una percentuale di falsi allarmi dello 0%.
In un set di dati sbilanciato in cui il numero di negativi effettivi è molto, molto basso, ad esempio 1-2 esempi in totale, l'FPR è meno significativo e meno utile come metrica.
Precisione
Precisione è la proporzione di tutte le classificazioni positive del modello che sono effettivamente positivi. È matematicamente definito come:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Nell'esempio di classificazione dello spam, la precisione misura la frazione delle email. classificati come spam, che erano effettivamente spam.
Un modello ipotetico perfetto non avrebbe falsi positivi e quindi e precisione di 1,0.
In un set di dati sbilanciato in cui il numero di positivi effettivi è molto, molto bassa, diciamo 1-2 esempi in totale, la precisione è meno significativa e meno utile come metrica.
La precisione migliora man mano che i falsi positivi diminuiscono, mentre il richiamo migliora quando i falsi negativi diminuiscono. Ma come abbiamo visto nella sezione precedente, l'aumento soglia di classificazione tende a diminuire il numero di falsi positivi aumentare il numero di falsi negativi, mentre diminuire la soglia ha effetti opposti. Di conseguenza, precisione e richiamo mostrano spesso una relazione, in cui il miglioramento di uno di questi aspetti peggiora l'altro.
Fai una prova:
Che cosa significa NaN nelle metriche?
NaN, o "non un numero", appare dividendo per 0, cosa che può accadere con una qualsiasi di queste metriche. Ad esempio, quando TP e FP sono entrambi pari a 0, la formula per la precisione ha 0 nel denominatore, il che genera NaN. Mentre in alcuni casi NaN può indicare prestazioni perfette e potrebbe essere sostituito da un punteggio di 1,0, può anche provenire da un modello praticamente inutili. Ad esempio, un modello che non prevede mai un valore positivo avrà 0 TP e 0 FP, quindi un calcolo della sua precisione restituirebbe NaN.
Scelta della metrica e dei compromessi
Le metriche a cui scegli di dare la priorità quando valuti il modello la scelta di una soglia dipende dai costi, dai benefici e dai rischi un problema specifico. Nell'esempio di classificazione dello spam, spesso dare la priorità al richiamo, alla ricerca di email di spam o alla precisione, cercare di assicurarsi che le email etichettate come spam siano in realtà spam o dei due, al di sopra del livello minimo di accuratezza.
Metrica | Consulenza |
---|---|
Accuratezza | Usa come indicatore approssimativo del modello avanzamento/convergenza dell'addestramento per set di dati bilanciati. Per le prestazioni del modello, utilizzalo solo in combinazione con altre metriche. Evita di utilizzare set di dati sbilanciati. Valuta la possibilità di utilizzare un'altra metrica. |
Richiamo (tasso di veri positivi) |
Da utilizzare quando i falsi negativi sono più costose dei falsi positivi. |
Percentuale di falsi positivi | Da utilizzare se i falsi positivi sono più costosi dei falsi negativi. |
Precisione | Da usare quando è molto importante che le previsioni positive siano accurate. |
Punteggio F1 (facoltativo, avanzato)
Il punteggio F1 è la media armonica (una media) di precisione e richiamo.
Da punto di vista matematico, è data da:
Questa metrica bilancia l'importanza della precisione e del richiamo è preferibile l'accuratezza per set di dati sbilanciati sulle classi. Quando la precisione e ricorda che entrambi hanno un punteggio perfetto di 1,0, F1 ha anche un punteggio perfetto pari a 1,0. Più in generale, quando precisione e richiamo sono simili al valore, F1 potrebbero avvicinarsi al loro valore. Quando precisione e richiamo sono lontani, F1 essere simile alla metrica peggiore.