Classificazione: accuratezza, richiamo, precisione e metriche correlate

I veri e i falsi positivi e negativi vengono utilizzati per calcolare diversi e metriche per la valutazione dei modelli. Quali sono le metriche di valutazione più importanti significativo dipende dal modello e dall'attività specifica, il costo di errori di classificazione diversi e se il set di dati è bilanciato sbilanciato.

Tutte le metriche di questa sezione vengono calcolate secondo una singola soglia fissa, e quando la soglia cambia. Molto spesso, l'utente regola soglia per ottimizzare una di queste metriche.

Accuratezza

La accuratezza è la proporzione le classificazioni corrette, positive o negative. È matematicamente definita come:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Nell'esempio di classificazione dello spam, l'accuratezza misura la frazione di tutti classificati in modo corretto.

Un modello perfetto avrebbe zero falsi positivi e zero falsi negativi e pertanto una precisione di 1, 0 o 100%.

Poiché incorpora tutti e quattro i risultati matrice di confusione (TP, FP, TN, FN), dato un bilanciamento con numeri simili di esempi in entrambe le classi, l'accuratezza può possono essere usati come misura approssimativa della qualità del modello. Per questo motivo, spesso è la metrica di valutazione predefinita utilizzata per i modelli generici o non specificati che eseguono attività generiche o non specificate.

Tuttavia, quando il set di dati è sbilanciato, oppure nei casi in cui un tipo di errore (FN o FP) è più costoso dell'altro, ovvero nel caso della maggior parte delle applicazioni reali, è meglio ottimizzare per una delle le altre metriche.

Nel caso di set di dati molto sbilanciati, dove una classe appare molto raramente, diciamo che l'1% l'ora, un modello che prevede un valore negativo del 100% delle volte ottiene un punteggio del 99% precisione, nonostante sia inutile.

Richiamo o tasso di veri positivi

Il tasso di veri positivi (TPR) o la proporzione di tutti i positivi effettivi che sono stati classificati correttamente come positivi, è anche noto come richiamo.

Il richiamo è matematicamente definito come:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

I falsi negativi sono veri positivi che sono stati erroneamente classificati come negativi, ovvero è per questo che appaiono nel denominatore. Nell'esempio di classificazione come spam, Il richiamo misura la frazione delle email di spam che sono state correttamente classificate come spam. spam. Questo è il motivo per cui un altro nome per il richiamo è probability of detection: risponde alla domanda "Quale frazione delle email di spam viene rilevata da questo modello?"

Un modello ipotetico perfetto non avrebbe falsi negativi, perciò richiamo (TPR) di 1, 0, cioè un tasso di rilevamento del 100%.

In un set di dati sbilanciato in cui il numero di positivi effettivi è molto, molto basso, diciamo che 1-2 esempi in totale, il richiamo è meno significativo e meno utile come metrica.

Percentuale di falsi positivi

Il tasso di falsi positivi (FPR). è la proporzione di tutti i negativi effettivi classificati erroneamente come positivi, nota anche come probabilità di falso allarme. È matematicamente definita come:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

I falsi positivi sono negativi reali che sono stati classificati erroneamente, ed è per questo che compaiono nel denominatore. Nell'esempio di classificazione dello spam, FPR misura la frazione di email legittime erroneamente classificate come spam; il tasso di falsi allarmi del modello.

Un modello perfetto avrebbe zero falsi positivi e quindi un FPR pari a 0,0, vale a dire una percentuale di falsi allarmi dello 0%.

In un set di dati sbilanciato in cui il numero di negativi effettivi è molto, molto basso, ad esempio 1-2 esempi in totale, l'FPR è meno significativo e meno utile come metrica.

Precisione

Precisione è la proporzione di tutte le classificazioni positive del modello che sono effettivamente positivi. È matematicamente definito come:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Nell'esempio di classificazione dello spam, la precisione misura la frazione delle email. classificati come spam, che erano effettivamente spam.

Un modello ipotetico perfetto non avrebbe falsi positivi e quindi e precisione di 1,0.

In un set di dati sbilanciato in cui il numero di positivi effettivi è molto, molto bassa, diciamo 1-2 esempi in totale, la precisione è meno significativa e meno utile come metrica.

La precisione migliora man mano che i falsi positivi diminuiscono, mentre il richiamo migliora quando i falsi negativi diminuiscono. Ma come abbiamo visto nella sezione precedente, l'aumento soglia di classificazione tende a diminuire il numero di falsi positivi aumentare il numero di falsi negativi, mentre diminuire la soglia ha effetti opposti. Di conseguenza, precisione e richiamo mostrano spesso una relazione, in cui il miglioramento di uno di questi aspetti peggiora l'altro.

Scelta della metrica e dei compromessi

Le metriche a cui scegli di dare la priorità quando valuti il modello la scelta di una soglia dipende dai costi, dai benefici e dai rischi un problema specifico. Nell'esempio di classificazione dello spam, spesso dare la priorità al richiamo, alla ricerca di email di spam o alla precisione, cercare di assicurarsi che le email contrassegnate come spam siano in realtà spam o dei due, al di sopra del livello minimo di accuratezza.

Metrica Consulenza
Accuratezza

Usa come indicatore approssimativo del modello avanzamento/convergenza dell'addestramento per set di dati bilanciati.

Per le prestazioni del modello, utilizzalo solo in combinazione con altre metriche.

Evita di utilizzare set di dati sbilanciati. Valuta la possibilità di utilizzare un'altra metrica.

Richiamo
(tasso di veri positivi)
Da utilizzare quando i falsi negativi sono più costose dei falsi positivi.
Percentuale di falsi positivi Da utilizzare se i falsi positivi sono più costosi dei falsi negativi.
Precisione Da usare quando è molto importante che le previsioni positive siano accurate.

Punteggio F1 (facoltativo, avanzato)

Il punteggio F1 è la media armonica (una media) di precisione e richiamo.

Da punto di vista matematico, è data da:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Questa metrica bilancia l'importanza della precisione e del richiamo è preferibile l'accuratezza per set di dati sbilanciati sulle classi. Quando la precisione e ricorda che entrambi hanno un punteggio perfetto di 1,0, F1 ha anche un punteggio perfetto pari a 1,0. Più in generale, quando precisione e richiamo sono simili al valore, F1 potrebbero avvicinarsi al loro valore. Quando precisione e richiamo sono lontani, F1 essere simile alla metrica peggiore.

Allenamento: verifica le tue conoscenze

Un modello produce 5 TP, 6 TN, 3 FP e 2 FN. Calcola il richiamo.
0,714
Il richiamo viene calcolato come [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Il richiamo prende in considerazione tutti i positivi effettivi, non tutti corretti le classificazioni. La formula per il richiamo è [\frac{TP}{TP+FN}].
0,625
Il richiamo prende in considerazione tutti i positivi effettivi, non tutti positivi le classificazioni. La formula per il richiamo è [\frac{TP}{TP+FN}]
Un modello produce 3 TP, 4 TN, 2 FP e 1 FN. Calcola la precisione.
0,6
La precisione viene calcolata come segue: [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
La precisione considera tutte le classificazioni positive, non tutte positivi effettivi. La formula della precisione è [\frac{TP}{TP+FP}].
0,429
La precisione considera tutte le classificazioni positive, non tutte classificazioni corrette. La formula della precisione è [\frac{TP}{TP+FP}]
Stai creando un classificatore binario che controlla le foto di trappole per insetti per capire se è presente una specie invasiva pericolosa. Se il modello rileva la specie, viene avvisato l'entomologo (scienziato insetto) in servizio. In anticipo il rilevamento di questo insetto è fondamentale per prevenire un'infestazione. R un falso allarme (falso positivo) è facile da gestire: l'entomologo vede che la foto è stata classificata in modo errato e la contrassegna come tale. Presupporre un valore accettabile livello di precisione, per quale metrica dovrebbe essere ottimizzato questo modello?
Richiamo
In questo scenario, i falsi allarmi (FP) sono a basso costo, mentre gli elementi negativi sono molto costosi, quindi ha senso massimizzare il richiamo, o la probabilità il rilevamento automatico.
Tasso di falsi positivi (FPR)
In questo scenario, i falsi allarmi (FP) sono a basso costo. Tentativo per ridurli al minimo a rischio di perdere positivi effettivi effettivi buon senso.
Precisione
In questo scenario, i falsi allarmi (FP) non sono particolarmente dannoso, quindi stiamo cercando di migliorare la correttezza delle classificazioni positive è senza senso.