Questa pagina è stata tradotta dall'API Cloud Translation.

Equità: identificare i bias

Quando prepari i dati per l'addestramento e la valutazione del modello, è importante tenere presenti i problemi di equità e verificare la presenza di potenziali fonti di bias, in modo da poter mitigare in modo proattivo i relativi effetti prima di rilasciare il modello in produzione.

Dove potrebbero nascondersi i bias? Ecco alcuni campanelli d'allarme da tenere d'occhio nel tuo set di dati.

Valori delle caratteristiche mancanti

Se il set di dati ha una o più caratteristiche con valori mancanti per un numero elevato di esempi, questo potrebbe indicare che alcune caratteristiche chiave del set di dati sono sottorappresentate.

Esercizio: verifica la tua comprensione

Stai addestrando un modello per prevedere l'adopabilità dei cani da salvataggio in base a una serie di caratteristiche, tra cui razza, età, peso, temperamento e quantità di pelo perso ogni giorno. Il tuo obiettivo è garantire che il modello funzioni correttamente su tutti i tipi di cani, indipendentemente dalle loro caratteristiche fisiche o comportamentali.

Scopri che a 1500 dei 5000 esempi nel set di addestramento mancano i valori di temperamento. Quali delle seguenti sono potenziali fonti di pregiudizi che dovresti esaminare?

I dati sul temperamento sono più propensi a mancare per determinate razze di cani.

Se la disponibilità dei dati sul temperamento è correlata alla razza del cane, questo potrebbe comportare previsioni di adottabilità meno accurate per determinate razze di cani.

I dati sul temperamento sono più propensi a non essere presenti per i cani di età inferiore a 12 mesi

Se la disponibilità dei dati sul temperamento è correlata all'età, questo potrebbe comportare previsioni di adottabilità meno accurate per i cuccioli rispetto ai cani adulti.

I dati sul temperamento mancano per tutti i cani salvati dalle grandi città.

A prima vista, potrebbe non sembrare che questa sia una potenziale fonte di bias, poiché i dati mancanti avrebbero lo stesso impatto su tutti i cani delle grandi città, indipendentemente da razza, età, peso e così via. Tuttavia, dobbiamo comunque considerare che la località di provenienza di un cane potrebbe effettivamente servire come sostituto di queste caratteristiche fisiche. Ad esempio, se i cani delle grandi città hanno una probabilità significativamente maggiore di essere più piccoli rispetto ai cani delle aree più rurali, ciò potrebbe comportare previsioni di adottabilità meno accurate per i cani di peso inferiore o per determinate razze di cani di piccola taglia.

I dati sul temperamento mancano nel set di dati in modo casuale.

Se i dati sul temperamento mancano davvero in modo casuale, non costituirebbero una potenziale fonte di bias. Tuttavia, è possibile che i dati sul temperamento sembrino mancanti in modo casuale, ma ulteriori indagini potrebbero rivelare una spiegazione per la discrepanza. Pertanto, è importante eseguire un esame approfondito per escludere altre possibilità, anziché assumere che le lacune nei dati siano casuali.

Valori delle caratteristiche imprevisti

Quando esamini i dati, devi anche cercare esempi che contengono valori delle caratteristiche che si distinguono come particolarmente insoliti o insoliti. Questi valori di funzionalità imprevisti potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o altre imprecisioni che potrebbero introdurre bias.

Esercizio: verifica la tua comprensione

Esamina il seguente insieme ipotetico di esempi per l'addestramento di un modello di adozione dei cani da salvataggio.

razza	età (anni)	peso (lb)	temperamento	shedding_level
barboncino toy	2	12	eccitabile	basso
golden retriever	7	65	calmo	alto
labrador retriever	35	73	calmo	alto
bulldog francese	0,5	11	calmo	media
Meticcio sconosciuto	4	45	eccitabile	alto
bassotto	9	48	calmo	media

Riesci a identificare eventuali problemi con i dati delle caratteristiche?

Fai clic qui per vedere la risposta

razza	età (anni)	peso (lb)	temperamento	shedding_level
barboncino toy	2	12	eccitabile	basso
golden retriever	7	65	calmo	alto
labrador retriever	35	73	calmo	alto
bulldog francese	0,5	11	calmo	media
Meticcio sconosciuto	4	45	eccitabile	alto
bassotto	9	48	calmo	media

Il cane più anziano di cui è stata verificata l'età dai Guinness World Records è stato Bluey, un Australian Cattle Dog che ha vissuto fino a 29 anni e 5 mesi. Detto questo, sembra piuttosto improbabile che il labrador retriever abbia effettivamente 35 anni ed è più probabile che l'età del cane sia stata calcolata o registrata in modo impreciso (forse il cane ha in realtà 3,5 anni). Questo errore potrebbe anche indicare problemi di accuratezza più generali con i dati sull'età nel set di dati che meritano ulteriori accertamenti.

Distorsione dei dati

Qualsiasi tipo di distorsione nei dati, in cui determinati gruppi o caratteristiche possono essere sotto o sovrarappresentati rispetto alla loro prevalenza nel mondo reale, può introdurre bias nel modello.

Durante il controllo delle prestazioni del modello, è importante non solo considerare i risultati in aggregati, ma anche suddividerli per sottogruppo. Ad esempio, nel caso del nostro modello di adottabilità dei cani da salvataggio, per garantire l'equità non è sufficiente considerare semplicemente l'accuratezza complessiva. Occorre anche controllare le prestazioni per sottogruppo per garantire che il modello funzioni correttamente per ogni razza canina, età e gruppo di taglia.

Più avanti in questo modulo, nella sezione Valutazione per rilevare i bias, esamineremo più da vicino i diversi metodi per valutare i modelli per sottogruppo.

Indietro

Tipi di bias (5 min)

Avanti

Attenuazione dei bias (5 min)