Equità: identificare i bias

Quando prepari i dati per l'addestramento e la valutazione del modello, è importante tenere presenti i problemi di equità e verificare la presenza di potenziali fonti di bias, in modo da poter mitigare in modo proattivo i relativi effetti prima di rilasciare il modello in produzione.

Dove potrebbero nascondersi i bias? Ecco alcuni campanelli d'allarme da tenere d'occhio nel tuo set di dati.

Valori delle caratteristiche mancanti

Se il set di dati ha una o più caratteristiche con valori mancanti per un numero elevato di esempi, questo potrebbe indicare che alcune caratteristiche chiave del set di dati sono sottorappresentate.

Esercizio: verifica la tua comprensione

Stai addestrando un modello per prevedere l'adopabilità dei cani da salvataggio in base a una serie di caratteristiche, tra cui razza, età, peso, temperamento e quantità di pelo perso ogni giorno. Il tuo obiettivo è garantire che il modello funzioni correttamente su tutti i tipi di cani, indipendentemente dalle loro caratteristiche fisiche o comportamentali.

Scopri che a 1500 dei 5000 esempi nel set di addestramento mancano i valori di temperamento. Quali delle seguenti sono potenziali fonti di pregiudizi che dovresti esaminare?

I dati sul temperamento sono più propensi a mancare per determinate razze di cani.
Se la disponibilità dei dati sul temperamento è correlata alla razza del cane, questo potrebbe comportare previsioni di adottabilità meno accurate per determinate razze di cani.
I dati sul temperamento sono più propensi a non essere presenti per i cani di età inferiore a 12 mesi
Se la disponibilità dei dati sul temperamento è correlata all'età, questo potrebbe comportare previsioni di adottabilità meno accurate per i cuccioli rispetto ai cani adulti.
I dati sul temperamento mancano per tutti i cani salvati dalle grandi città.
A prima vista, potrebbe non sembrare che questa sia una potenziale fonte di bias, poiché i dati mancanti avrebbero lo stesso impatto su tutti i cani delle grandi città, indipendentemente da razza, età, peso e così via. Tuttavia, dobbiamo comunque considerare che la località di provenienza di un cane potrebbe effettivamente servire come sostituto di queste caratteristiche fisiche. Ad esempio, se i cani delle grandi città hanno una probabilità significativamente maggiore di essere più piccoli rispetto ai cani delle aree più rurali, ciò potrebbe comportare previsioni di adottabilità meno accurate per i cani di peso inferiore o per determinate razze di cani di piccola taglia.
I dati sul temperamento mancano nel set di dati in modo casuale.
Se i dati sul temperamento mancano davvero in modo casuale, non costituirebbero una potenziale fonte di bias. Tuttavia, è possibile che i dati sul temperamento sembrino mancanti in modo casuale, ma ulteriori indagini potrebbero rivelare una spiegazione per la discrepanza. Pertanto, è importante eseguire un esame approfondito per escludere altre possibilità, anziché assumere che le lacune nei dati siano casuali.

Valori delle caratteristiche imprevisti

Quando esamini i dati, devi anche cercare esempi che contengono valori delle caratteristiche che si distinguono come particolarmente insoliti o insoliti. Questi valori di funzionalità imprevisti potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o altre imprecisioni che potrebbero introdurre bias.

Esercizio: verifica la tua comprensione

Esamina il seguente insieme ipotetico di esempi per l'addestramento di un modello di adozione dei cani da salvataggio.

razza età (anni) peso (lb) temperamento shedding_level
barboncino toy 2 12 eccitabile basso
golden retriever 7 65 calmo alto
labrador retriever 35 73 calmo alto
bulldog francese 0,5 11 calmo media
Meticcio sconosciuto 4 45 eccitabile alto
bassotto 9 48 calmo media
Riesci a identificare eventuali problemi con i dati delle caratteristiche?
Fai clic qui per vedere la risposta

Distorsione dei dati

Qualsiasi tipo di distorsione nei dati, in cui determinati gruppi o caratteristiche possono essere sotto o sovrarappresentati rispetto alla loro prevalenza nel mondo reale, può introdurre bias nel modello.

Durante il controllo delle prestazioni del modello, è importante non solo considerare i risultati in aggregati, ma anche suddividerli per sottogruppo. Ad esempio, nel caso del nostro modello di adottabilità dei cani da salvataggio, per garantire l'equità non è sufficiente considerare semplicemente l'accuratezza complessiva. Occorre anche controllare le prestazioni per sottogruppo per garantire che il modello funzioni correttamente per ogni razza canina, età e gruppo di taglia.

Più avanti in questo modulo, nella sezione Valutazione per rilevare i bias, esamineremo più da vicino i diversi metodi per valutare i modelli per sottogruppo.