Correttezza: valutazione per bias

Quando valuti un modello, le metriche calcolate in base a un intero set di test o convalida non forniscono sempre un quadro preciso della correttezza del modello.

Considera un nuovo modello sviluppato per prevedere la presenza di tumori valutati in base a un set di convalida di 1000 pazienti e cartelle cliniche. 500 record sono di pazienti di sesso femminile e 500 di dati di pazienti di sesso maschile. La seguente matrice di confusione riassume i risultati per tutti i 1000 esempi:

Vero positivo (TP): 16 Falsi positivi (FP): 4
Falsi negativi (FN): 6 Tasse negative (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Questi risultati sembrano promettenti: precisione dell'80% e richiamo del 72,7%. Ma cosa succede se calcoliamo il risultato separatamente per ogni gruppo di pazienti? Suddividiamo i risultati in due matrici di confusione separate: una per le donne e una per i maschi.

Risultati di pazienti di sesso femminile

Veri positivi (TP): 10 Falso positivo (FP): 1
Falsi negativi (FN): 1 Tasse negative (TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Risultati maschili

Vero positivo (TP): 6 Falso positivo (FP): 3
Falsi negativi (FN): 5 Tasse negative (TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Quando calcoliamo le metriche separatamente per i pazienti di sesso femminile e di genere maschile, notiamo forti differenze nel rendimento del modello per ogni gruppo.

Pazienti donne:

  • Di queste 11 pazienti affette da tumori, il modello prevede in modo corretto 10 pazienti (tasso di richiamo: 90,9%). In altre parole, il modello non rileva una diagnosi tumorale nel 9,1% dei casi femminili.

  • Analogamente, quando il modello restituisce un risultato positivo al tumore nelle pazienti di genere femminile, è corretto in 10 casi su 11 (tasso di precisione: 90,9%); in altre parole, il modello prevede in modo errato il tumore nel 9,1% dei casi di sesso femminile.

Pazienti maschi:

  • Tuttavia, degli 11 pazienti maschi che in realtà hanno tumori, il modello prevede correttamente solo per 6 pazienti (tasso di richiamo: 54,5%). Ciò significa che il modello non rileva una diagnosi tumorale nel 45,5% dei casi maschili.

  • E quando il modello restituisce un risultato positivo al tumore nei pazienti maschi, è corretto solo in 6 casi su 9 (tasso di precisione: 66,7%); in altre parole, il modello prevede in modo errato il tumore nel 33,3% dei casi maschili.

Ora abbiamo una migliore comprensione dei pregiudizi intrinsechi nelle previsioni del modello, nonché dei rischi per ciascun sottogruppo in caso di rilascio del modello per l'uso medico nella popolazione generale.

Ulteriori risorse per l'equità

L'equità è un sottocampo relativamente nuovo all'interno della disciplina del machine learning. Per saperne di più sulla ricerca e sulle iniziative dedicate allo sviluppo di nuovi strumenti e tecniche per l'identificazione e la riduzione dei bias nei modelli di machine learning, consulta Pagina delle risorse di equità del machine learning di Google.