La sezione precedente presentava un insieme di metriche del modello, tutte calcolate in base a valore di soglia di classificazione singola. Ma se vuoi valutare della qualità del modello in tutte le possibili soglie, sono necessari strumenti diversi.
Curva della caratteristica operativa del ricevitore (ROC)
La curva ROC è una rappresentazione visiva delle prestazioni del modello in tutte le soglie. La versione lunga del nome, caratteristica operativa del ricevitore, è un holdover dal rilevamento radar durante la seconda guerra mondiale.
La curva ROC viene tracciata calcolando il tasso di veri positivi (TPR) e il tasso di falsi positivi (FPR) a ogni soglia possibile (in pratica, intervalli selezionati), quindi rappresentando graficamente il TPR su quello FPR. Un modello perfetto, che a una certa soglia ha un TPR di 1,0 e un FPR di 0,0, può essere rappresentata da un punto (0, 1) se tutte le altre soglie vengono ignorate o da quanto segue:
Area sotto la curva (AUC)
L'area sotto la curva ROC (AUC) rappresenta la probabilità che il modello, se vengono forniti un esempio positivo e negativo scelto in modo casuale, classifica il positivo è più alto del negativo.
Il modello perfetto sopra, contenente un quadrato con lati di lunghezza 1, ha una area sotto la curva (AUC) di 1,0. Ciò significa che esiste una probabilità del 100% che il modello determinerà correttamente il ranking di un esempio positivo scelto in modo casuale più alto di un esempio di esclusione casuale scelto in modo casuale. In altre parole, esaminando la diffusione punti di dati sottostanti, l'AUC fornisce la probabilità che il modello posizioni un quadrato scelto in modo casuale a destra di un cerchio scelto a caso, indipendentemente in cui è impostata la soglia.
In termini più concreti, un classificatore di spam con AUC pari a 1,0 assegna sempre a un'email di spam casuale una probabilità maggiore di essere di un'email legittima e casuale. La classificazione effettiva di ogni delle email dipende dalla soglia scelta.
Per un classificatore binario, un modello che funziona esattamente così come ipotesi o il lancio di una moneta ha una ROC che è una linea diagonale da (0,0) a (1,1). L'AUC è 0,5, che rappresenta una probabilità del 50% di classificare correttamente un positivo e un esempio negativo.
Nell'esempio di classificatore spam, un classificatore di spam con AUC pari a 0,5 assegna un'email di spam casuale ha una probabilità maggiore di essere spam rispetto a un'email di spam casuale le email legittime solo la metà delle volte.
(Facoltativo, avanzato) Curva di precisione-richiamo
AUC e ROC sono ideali per confrontare i modelli quando il set di dati è approssimativamente equilibrato tra le classi. Quando il set di dati è sbilanciato, precisione-richiamo (PRC) e l'area sotto tali curve possono offrire una migliore e la visualizzazione delle prestazioni del modello. Le curve di precisione-richiamo sono create la precisione di tracciamento sull'asse y e il richiamo sull'asse x su tutte soglie.
AUC e ROC per scegliere modello e soglia
L'AUC è uno strumento utile per confrontare il rendimento di due diversi modelli: purché il set di dati sia bilanciato in modo approssimativo. (vedi Curva di precisione-richiamo, sopra per set di dati sbilanciati). Il modello con un'area più grande sotto la curva è generalmente quella migliore.
I punti di una curva ROC più vicina a (0,1) rappresentano un intervallo soglie delle prestazioni migliori per il modello specificato. Come discusso nel Soglie, Matrice di confusione e Scelta della metrica e dei compromessi sezioni, la soglia che scegli dipende dalla metrica più importante per caso d'uso specifico. Considera i punti A, B e C della sezione ognuno dei quali rappresenta una soglia:
Se i falsi positivi (falsi allarmi) sono molto costosi, può avere senso scegli una soglia che dia un FPR più basso, come quella del punto A, anche se TPR è ridotto. Al contrario, se i falsi positivi sono economici e i falsi negativi (veri positivi mancanti) molto costosa, la soglia per il punto C, che massimizza il TPR, probabilmente è preferibile. Se i costi sono più o meno equivalenti, il punto B può offrire il miglior equilibrio tra TPR e FPR.
Ecco la curva ROC per i dati che abbiamo visto in precedenza:
Allenamento: verifica le tue conoscenze
(Facoltativo, avanzato) Domanda bonus
Immagina una situazione in cui è meglio consentire a un po' di spam di raggiungere posta in arrivo anziché inviare un'email di importanza critica all'azienda nella cartella Spam. Hai addestrato un classificatore di spam in questa situazione in cui la classe positiva è spam e la classe negativa è non spam. Quale dei seguenti punti sulla curva ROC del classificatore è preferibile?