Equità: identificare i bias

Quando prepari i dati per l'addestramento e la valutazione del modello, è importante tenere presenti i problemi di equità e verificare la presenza di potenziali fonti di bias, in modo da poter mitigare in modo proattivo i relativi effetti prima di rilasciare il modello in produzione.

Dove potrebbero nascondersi i bias? Ecco alcuni campanelli d'allarme da tenere d'occhio nel tuo set di dati.

Valori delle caratteristiche mancanti

Se il set di dati ha una o più caratteristiche con valori mancanti per un numero elevato di esempi, questo potrebbe indicare che alcune caratteristiche chiave del set di dati sono sottorappresentate.

Esercizio: verifica la tua comprensione

Stai addestrando un modello per prevedere l'adopabilità dei cani da salvataggio in base a una serie di caratteristiche, tra cui razza, età, peso, temperamento e quantità di pelo perso ogni giorno. Il tuo obiettivo è garantire che il modello funzioni correttamente su tutti i tipi di cani, indipendentemente dalle loro caratteristiche fisiche o comportamentali.

Scopri che a 1500 dei 5000 esempi nel set di addestramento mancano i valori di temperamento. Quali delle seguenti sono potenziali fonti di pregiudizi che dovresti esaminare?

I dati sul temperamento sono più propensi a mancare per determinate razze di cani.
I dati sul temperamento mancano nel set di dati in modo casuale.
I dati sul temperamento mancano per tutti i cani salvati dalle grandi città.
I dati sul temperamento sono più propensi a non essere presenti per i cani di età inferiore a 12 mesi

Valori delle caratteristiche imprevisti

Quando esamini i dati, devi anche cercare esempi che contengono valori delle caratteristiche che si distinguono come particolarmente insoliti o insoliti. Questi valori di funzionalità imprevisti potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o altre imprecisioni che potrebbero introdurre bias.

Esercizio: verifica la tua comprensione

Esamina il seguente insieme ipotetico di esempi per l'addestramento di un modello di adozione dei cani da salvataggio.

razza età (anni) peso (lb) temperamento shedding_level
barboncino toy 2 12 eccitabile basso
golden retriever 7 65 calmo alto
labrador retriever 35 73 calmo alto
bulldog francese 0,5 11 calmo media
Meticcio sconosciuto 4 45 eccitabile alto
bassotto 9 48 calmo media
Riesci a identificare eventuali problemi con i dati delle caratteristiche?
Fai clic qui per vedere la risposta

Distorsione dei dati

Qualsiasi tipo di distorsione nei dati, in cui determinati gruppi o caratteristiche possono essere sotto o sovrarappresentati rispetto alla loro prevalenza nel mondo reale, può introdurre bias nel modello.

Durante il controllo delle prestazioni del modello, è importante non solo considerare i risultati in aggregati, ma anche suddividerli per sottogruppo. Ad esempio, nel caso del nostro modello di adottabilità dei cani da salvataggio, per garantire l'equità non è sufficiente considerare semplicemente l'accuratezza complessiva. Occorre anche controllare le prestazioni per sottogruppo per garantire che il modello funzioni correttamente per ogni razza canina, età e gruppo di taglia.

Più avanti in questo modulo, nella sezione Valutazione per rilevare i bias, esamineremo più da vicino i diversi metodi per valutare i modelli per sottogruppo.