Classificazione: accuratezza, richiamo, precisione e metriche correlate

I veri e falsi positivi e negativi vengono utilizzati per calcolare diverse metriche utili per la valutazione dei modelli. Le metriche di valutazione più significative dipendono dal modello e dall'attività specifici, dal costo delle diverse classificazioni errate e dal fatto che il set di dati sia bilanciato o sbilanciato.

Tutte le metriche in questa sezione vengono calcolate in base a una singola soglia fissa e cambiano quando la soglia cambia. Molto spesso, l'utente regola la soglia per ottimizzare una di queste metriche.

Accuratezza

L'accuratezza è la proporzione di tutte le classificazioni corrette, positive o negative. È matematicamente definito come:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Nell'esempio di classificazione dello spam, la precisione misura la frazione di tutte le email classificate correttamente.

Un modello perfetto avrebbe zero falsi positivi e zero falsi negativi e quindi un'accuratezza pari a 1,0 o 100%.

Poiché incorpora tutti e quattro i risultati della matrice di confusione (TP, FP, TN, FN), dato un set di dati equilibrato, con numeri simili di esempi in entrambe le classi, l'accuratezza può servire come misura approssimativa della qualità del modello. Per questo motivo, spesso è la metrica di valutazione predefinita utilizzata per i modelli generici o non specificati che eseguono attività generiche o non specificate.

Tuttavia, quando il set di dati non è bilanciato o se un tipo di errore (FN o FP) è più costoso dell'altro, come nella maggior parte delle applicazioni reali, è meglio ottimizzare per una delle altre metriche.

Per i set di dati fortemente sbilanciati, in cui una classe compare molto raramente, ad esempio l'1% delle volte, un modello che prevede un valore negativo il 100% delle volte otterrebbe un punteggio di accuratezza del 99%, pur essendo inutile.

Richiamo o percentuale di veri positivi

La percentuale di veri positivi (TPR), ovvero la proporzione di tutti i positivi effettivi che sono stati classificati correttamente come positivi, è nota anche come richiamo.

Il richiamo è definito matematicamente come:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

I falsi negativi sono veri positivi classificati erroneamente come negativi, motivo per cui compaiono nel denominatore. Nell'esempio di classificazione dello spam, la sensibilità misura la frazione di email di spam classificate correttamente come spam. Ecco perché un altro nome per il recupero è probabilità di rilevamento: risponde alla domanda "Quale frazione di email di spam viene rilevata da questo modello?"

Un modello ipotetico perfetto non avrebbe falsi negativi, quindi un richiamo (TPR) di 1,0, ovvero un tasso di rilevamento del 100%.

In un set di dati sbilanciato in cui il numero di positivi effettivi è molto, molto basso, ad esempio 1-2 esempi in totale, il richiamo è meno significativo e meno utile come metrica.

Percentuale di falsi positivi

Il tasso di falsi positivi (FPR) è la proporzione di tutti i negativi effettivi che sono stati classificati erroneamente come positivi, nota anche come probabilità di falso allarme. È matematicamente definito come:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

I falsi positivi sono eventi negativi effettivi classificati erroneamente, motivo per cui compaiono nel denominatore. Nell'esempio di classificazione dello spam, il tasso di falsi positivi misura la frazione di email legittime classificate erroneamente come spam o il tasso di falsi allarmi del modello.

Un modello perfetto non avrebbe falsi positivi e, di conseguenza, un FPR pari a 0, ovvero un tasso di falsi allarmi dello 0%.

In un set di dati sbilanciato in cui il numero di esempi negativi effettivi è molto basso, ad esempio 1-2 esempi in totale, il tasso di falsi positivi è meno significativo e utile come metrica.

Precisione

La precisione è la proporzione di tutte le classificazioni positive del modello che sono effettivamente positive. È definito matematicamente come:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Nell'esempio di classificazione dello spam, la precisione misura la frazione di email classificate come spam che erano effettivamente spam.

Un modello ipoteorico perfetto non avrebbe falsi positivi e quindi una precisione pari a 1,0.

In un set di dati sbilanciato in cui il numero di esempi positivi effettivi è molto basso, ad esempio 1-2 esempi in totale, la precisione è meno significativa e utile come metrica.

La precisione migliora man mano che i falsi positivi diminuiscono, mentre il richiamo migliora quando diminuiscono i falsi negativi. Tuttavia, come visto nella sezione precedente, l'aumento della soglia di classificazione tende a diminuire il numero di falsi positivi e aumentare il numero di falsi negativi, mentre la diminuzione della soglia ha effetti opposti. Di conseguenza, la precisione e il richiamo mostrano spesso una relazione inversa, in cui il miglioramento di uno peggiora l'altro.

Prova tu stesso:

Che cosa significa NaN nelle metriche?

NaN, o "not a number", viene visualizzato quando si divide per 0, il che può accadere con qualsiasi di queste metriche. Ad esempio, quando TP e FP sono entrambi pari a 0, la formula per la precisione ha 0 nel denominatore, ottenendo così NaN. Anche se in alcuni casi NaN può indicare prestazioni perfette e potrebbe essere sostituito da un punteggio di 1,0, può anche provenire da un modello praticamente inutile. Ad esempio, un modello che non prevede mai un valore positivo avrebbe 0 TP e 0 FP, quindi un calcolo della sua precisione produrrebbe NaN.

Scelta della metrica e compromessi

Le metriche che scegli di dare la priorità durante la valutazione del modello e la scelta di una soglia dipendono dai costi, dai vantaggi e dai rischi del problema specifico. Nell'esempio di classificazione dello spam, spesso conviene dare la priorità al richiamo, catturando tutte le email di spam, o alla precisione, cercando di garantire che le email etichettate come spam siano effettivamente spam, o un equilibrio tra i due, al di sopra di un livello minimo di accuratezza.

Metrica Consulenza
Accuratezza

Da utilizzare come indicatore approssimativo di avanzamento/convergenza dell'addestramento del modello per set di dati bilanciati.

Per il rendimento del modello, utilizzala solo in combinazione con altre metriche.

Evita di utilizzarlo per set di dati sbilanciati. Prendi in considerazione l'utilizzo di un'altra metrica.

Richiamo
(tasso di veri positivi)
Da utilizzare quando i falsi negativi sono più costosi dei falsi positivi.
Percentuale di falsi positivi Da utilizzare quando i falsi positivi sono più costosi dei falsi negativi.
Precisione Da utilizzare quando è molto importante che le predizioni positive siano accurate.

(Facoltativo, avanzato) Punteggio F1

Il punteggio F1 è la media armonica (un tipo di media) di precisione e richiamo.

Da un punto di vista matematico, è dato da:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Questa metrica bilancia l'importanza di precisione e richiamo ed è preferibile alla precisione per i set di dati con classi sbilanciate. Quando sia la precisione sia il richiamo hanno un punteggio perfetto pari a 1,0, anche il punteggio F1 sarà perfetto e pari a 1,0. In generale, quando la precisione e il richiamo hanno valori simili, il valore F1 sarà simile al loro. Quando precisione e richiamo sono lontani, F1 sarà simile a qualsiasi metrica peggiore.

Esercizio: verifica la tua comprensione

Un modello produce 5 TP, 6 TN, 3 FP e 2 FN. Calcola il richiamo.
0,714
Il richiamo viene calcolato come [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Il richiamo prende in considerazione tutti i casi positivi effettivi, non tutte le classificazioni corrette. La formula per il richiamo è [\frac{TP}{TP+FN}].
0,625
Il richiamo prende in considerazione tutti i positivi effettivi, non tutte le classificazioni positive. La formula per il richiamo è [\frac{TP}{TP+FN}]
Un modello genera 3 TP, 4 TN, 2 FP e 1 FN. Calcola la precisione.
0,6
La precisione viene calcolata come [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
La precisione prende in considerazione tutte le classificazioni positive, non tutti i positivi effettivi. La formula per la precisione è [\frac{TP}{TP+FP}].
0,429
La precisione prende in considerazione tutte le classificazioni positive, non tutte quelle corrette. La formula per la precisione è [\frac{TP}{TP+FP}]
Stai creando un classificatore binario che controlla le foto di trappole per insetti per verificare la presenza di specie invasive pericolose. Se il modello rileva la specie, viene inviata una notifica all'entomologo di turno. Il rilevamento precoce di questo insetto è fondamentale per prevenire un'infestazione. Un falso allarme (falso positivo) è facile da gestire: l'entomologo vede che la foto è stata classificata erroneamente e la contrassegna come tale. Presupponendo un livello di accuratezza accettabile, per quale metrica dovrebbe essere ottimizzato questo modello?
Richiamo
In questo scenario, i falsi allarmi (FP) hanno un costo ridotto, mentre i falsi negativi sono molto costosi, quindi ha senso massimizzare il richiamo o la probabilità di rilevamento.
Tasso di falsi positivi (FPR)
In questo scenario, i falsi allarmi (FP) sono a basso costo. Non ha senso tentare di minimizzarli rischiando di perdere i positivi effettivi.
Precisione
In questo scenario, i falsi allarmi (FP) non sono particolarmente dannosi, quindi cercare di migliorare la correttezza delle classificazioni positive non ha senso.