Classificazione: accuratezza, richiamo, precisione e metriche correlate

I veri e falsi positivi e negativi vengono utilizzati per calcolare diverse metriche utili per la valutazione dei modelli. Le metriche di valutazione più significative dipendono dal modello specifico e dall'attività specifica, dal costo dei diversi errori di classificazione e dal fatto che il set di dati sia bilanciato o sbilanciato.

Tutte le metriche in questa sezione vengono calcolate in base a una singola soglia fissa e cambiano quando la soglia cambia. Molto spesso, l'utente regola la soglia per ottimizzare una di queste metriche.

Accuratezza

La accuratezza è la proporzione di tutte le classificazioni corrette, positive o negative. È matematicamente definito come:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Nell'esempio di classificazione dello spam, l'accuratezza misura la frazione di tutte le email correttamente classificate.

Un modello perfetto avrebbe zero falsi positivi e zero falsi negativi e quindi un'accuratezza pari a 1,0 o 100%.

Poiché incorpora tutti e quattro i risultati della matrice di confusione (TP, FP, TN, FN), dato un dataset bilanciato, con numeri simili di esempi in entrambe le classi, la precisione può servire come misura approssimativa della qualità del modello. Per questo motivo, è spesso la metrica di valutazione predefinita utilizzata per i modelli generici o non specificati che svolgono attività generiche o non specificate.

Tuttavia, quando il set di dati è sbilanciato o quando un tipo di errore (FN o FP) è più costoso dell'altro, come accade nella maggior parte delle applicazioni reali, è meglio eseguire l'ottimizzazione in base a una delle altre metriche.

Per i set di dati fortemente sbilanciati, in cui una classe compare molto raramente, ad esempio l'1% delle volte, un modello che prevede un valore negativo il 100% delle volte otterrebbe un punteggio di accuratezza del 99%, pur essendo inutile.

Richiamo o tasso di veri positivi

La percentuale di veri positivi (TPR), ovvero la proporzione di tutti i positivi effettivi che sono stati classificati correttamente come positivi, è nota anche come richiamo.

Il richiamo è definito matematicamente come:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

I falsi negativi sono veri positivi classificati erroneamente come negativi, motivo per cui compaiono nel denominatore. Nell'esempio di classificazione dello spam, la sensibilità misura la frazione di email di spam classificate correttamente come spam. Ecco perché un altro nome per il recupero è probabilità di rilevamento: risponde alla domanda "Quale frazione di email di spam viene rilevata da questo modello?"

Un modello ipoteorico perfetto non avrebbe falsi negativi e quindi un recupero (TPR) pari a 1, 0, ovvero un tasso di rilevamento del 100%.

In un set di dati sbilanciato in cui il numero di positivi effettivi è molto, molto basso, ad esempio 1-2 esempi in totale, il richiamo è meno significativo e meno utile come metrica.

Percentuale di falsi positivi

Il tasso di falsi positivi (FPR) è la proporzione di tutti i negativi effettivi classificati erroneamente come positivi, nota anche come probabilità di falso allarme. È definito matematicamente come:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

I falsi positivi sono eventi negativi effettivi classificati erroneamente, motivo per cui compaiono nel denominatore. Nell'esempio di classificazione dello spam, il tasso di falsi positivi misura la frazione di email legittime classificate erroneamente come spam o il tasso di falsi allarmi del modello.

Un modello perfetto non avrebbe falsi positivi e, di conseguenza, un FPR pari a 0, ovvero un tasso di falsi allarmi dello 0%.

In un set di dati sbilanciato in cui il numero di negativi effettivi è molto, molto basso, ad esempio 1-2 esempi in totale, l'FPR è meno significativo e meno utile come metrica.

Precisione

La precisione è la proporzione di tutte le classificazioni positive del modello che sono effettivamente positive. È definito matematicamente come:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Nell'esempio di classificazione dello spam, la precisione misura la frazione di email classificate come spam che erano effettivamente spam.

Un modello ipoteorico perfetto non avrebbe falsi positivi e quindi una precisione pari a 1,0.

In un set di dati sbilanciato in cui il numero di esempi positivi effettivi è molto basso, ad esempio 1-2 esempi in totale, la precisione è meno significativa e utile come metrica.

La precisione migliora con la diminuzione dei falsi positivi, mentre il richiamo migliora con la diminuzione dei falsi negativi. Tuttavia, come visto nella sezione precedente, l'aumento della soglia di classificazione tende a diminuire il numero di falsi positivi e aumentare il numero di falsi negativi, mentre la diminuzione della soglia ha effetti opposti. Di conseguenza, la precisione e il richiamo mostrano spesso una relazione inversa, in cui il miglioramento di uno peggiora l'altro.

Fai una prova:

Che cosa significa NaN nelle metriche?

NaN, o "non un numero", viene visualizzato quando si divide per 0, cosa che può accadere con una qualsiasi di queste metriche. Ad esempio, quando TP e FP sono entrambi pari a 0, la formula per la precisione ha 0 nel denominatore, ottenendo così NaN. Anche se in alcuni casi NaN può indicare prestazioni perfette e potrebbe essere sostituito da un punteggio di 1,0, può anche provenire da un modello praticamente inutile. Ad esempio, un modello che non prevede mai un risultato positivo avrà 0 VP e 0 FP e, di conseguenza, il calcolo della sua precisione darà NaN.

Scelta della metrica e compromessi

Le metriche che scegli di dare la priorità durante la valutazione del modello e la scelta di una soglia dipendono dai costi, dai vantaggi e dai rischi del problema specifico. Nell'esempio di classificazione dello spam, spesso ha senso dare la priorità al richiamo, alla cattura di tutte le email di spam o alla precisione, cercando di garantire che le email etichettate come spam siano effettivamente spam, o che siano in qualche modo, al di sopra del livello minimo di accuratezza.

Metrica Consulenza
Accuratezza

Da utilizzare come indicatore approssimativo del progresso/della convergenza dell'addestramento del modello per i set di dati bilanciati.

Per il rendimento del modello, utilizzala solo in combinazione con altre metriche.

Evita di utilizzare set di dati sbilanciati. Prendi in considerazione l'utilizzo di un'altra metrica.

Richiamo
(tasso di veri positivi)
Da utilizzare quando i falsi negativi sono più costosi dei falsi positivi.
Percentuale di falsi positivi Da utilizzare quando i falsi positivi sono più costosi dei falsi negativi.
Precisione Da utilizzare quando è molto importante che le previsioni positive siano accurate.

(Facoltativo, avanzato) Punteggio F1

Il punteggio F1 è la media armonica (un tipo di media) di precisione e richiamo.

Da punto di vista matematico, è data da:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Questa metrica bilancia l'importanza di precisione e richiamo ed è preferibile alla precisione per i set di dati con classi sbilanciate. Quando precisione e richiamo hanno entrambi punteggi perfetti pari a 1,0, F1 avrà anche un punteggio perfetto di 1,0. In generale, quando la precisione e il richiamo hanno valori simili, il valore F1 sarà simile al loro. Quando precisione e richiamo sono lontani, F1 sarà simile a qualsiasi metrica peggiore.

Esercizio: verifica la tua comprensione

Un modello restituisce 5 TP, 6 TN, 3 FP e 2 FN. Calcola il richiamo.
0,714
Il richiamo viene calcolato come \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Il richiamo prende in considerazione tutti i casi positivi effettivi, non tutte le classificazioni corrette. La formula per il richiamo è \(\frac{TP}{TP+FN}\).
0,625
Il richiamo prende in considerazione tutti i positivi effettivi, non tutte le classificazioni positive. La formula per il richiamo è \(\frac{TP}{TP+FN}\)
Un modello genera 3 TP, 4 TN, 2 FP e 1 FN. Calcola la precisione.
0,6
La precisione viene calcolata come \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
La precisione considera tutte le classificazioni positive, non tutti i positivi effettivi. La formula per la precisione è \(\frac{TP}{TP+FP}\).
0,429
La precisione prende in considerazione tutte le classificazioni positive, non tutte quelle corrette. La formula per la precisione è \(\frac{TP}{TP+FP}\)
Stai creando un classificatore binario che controlla le foto di trappole per insetti per verificare se è presente una specie invasiva pericolosa. Se il modello rileva la specie, viene inviata una notifica all'entomologo di turno. Il rilevamento precoce di questo insetto è fondamentale per prevenire un'infestazione. Un falso allarme (falso positivo) è facile da gestire: l'entomologo vede che la foto è stata classificata erroneamente e la contrassegna come tale. Supponendo un livello di accuratezza accettabile, per quale metrica dovrebbe essere ottimizzato questo modello?
Richiamo
In questo scenario, i falsi allarmi (FP) sono a basso costo, mentre i falsi negativi sono molto costosi, quindi ha senso massimizzare il richiamo o la probabilità di rilevamento.
Tasso di falsi positivi (FPR)
In questo scenario, i falsi allarmi (FP) sono a basso costo. Non ha senso tentare di minimizzarli rischiando di perdere i positivi effettivi.
Precisione
In questo scenario, i falsi allarmi (FP) non sono particolarmente dannosi, pertanto non ha senso cercare di migliorare la correttezza delle classificazioni positive.