Equità: identificare i bias

Quando prepari i dati per l'addestramento e la valutazione del modello, è importante tenere a mente i problemi di equità e verificare la presenza di potenziali fonti di bias, in modo da poter mitigarne gli effetti in modo proattivo prima di rilasciare il modello in produzione.

Dove possono nascondersi i pregiudizi? Ecco alcuni segnali di allarme da tenere d'occhio nel tuo set di dati.

Valori delle caratteristiche mancanti

Se il set di dati ha una o più caratteristiche con valori mancanti per un di esempi, questo potrebbe indicare che alcune caratteristiche chiave del tuo set di dati sono sottorappresentati.

Allenamento: verifica le tue conoscenze

Stai addestrando un modello per prevedere l'adattabilità dei cani da salvataggio in base su una serie di caratteristiche, tra cui razza, età, peso, temperamento, e quantità di pellicce al giorno. Il tuo obiettivo è garantire che il modello si comporta bene con tutti i tipi di cani, indipendentemente dalla loro posizione o caratteristiche comportamentali

Scoprirai che 1500 dei 5000 esempi presenti nel set di addestramento sono valori di temperamento mancanti. Quali delle seguenti sono fonti potenziali pregiudizi che dovresti esaminare?

È più probabile che i dati sul temperamento non siano disponibili per alcune razze di cani.
Se la disponibilità di dati sul temperamento è correlata alla razza canina, ciò potrebbe comportare previsioni meno precise sull'adattabilità per alcune razze canine.
È più probabile che i dati sul temperamento non siano disponibili per i cani di età inferiore ai 12 anni mesi di età
Se la disponibilità di dati sul temperamento è correlata all'età, Ciò potrebbe comportare previsioni meno precise sull'adattabilità per cuccioli rispetto a cani adulti.
Mancano i dati sul temperamento per tutti i cani salvati dalle grandi città.
A prima vista, potrebbe non sembrare che si tratti di una potenziale fonte di pregiudizi, poiché i dati mancanti avrebbero interessato tutti i cani di grossa taglia città allo stesso modo, indipendentemente da razza, età, peso ecc. Tuttavia, dobbiamo considerare che la località di provenienza del cane potrebbe fungere da sostituto per queste caratteristiche caratteristiche. Ad esempio, se i cani delle grandi città che è molto più piccolo dei cani delle zone più rurali aree, che potrebbero comportare previsioni meno accurate sull'adattabilità per cani di peso inferiore o alcune razze di cani di piccola taglia.
Nel set di dati mancano i dati di temperamento in modo casuale.
Se i dati sul temperamento mancano davvero in modo casuale, una potenziale fonte di bias. Tuttavia, c'è un temperamento i dati potrebbero sembrare mancanti in modo casuale, ma ulteriori indagini potrebbe rivelare una spiegazione per tale discrepanza. Quindi è importante eseguire una revisione approfondita per escludere altre possibilità, anziché presupporre che le lacune nei dati siano casuali.

Valori delle caratteristiche imprevisti

Quando esplori i dati, dovresti anche cercare esempi che contengono valori delle caratteristiche particolarmente insoliti o insoliti. Queste funzionalità inaspettate potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o inesattezze che potrebbero introdurre bias.

Allenamento: verifica le tue conoscenze

Esamina il seguente insieme ipotetico di esempi per addestrare un cane da soccorso di adottare un modello di adottabilità.

razza età (anni) peso (kg) temperamento shedding_level
barboncino toy 2 12 eccitabile basso
golden retriever 7 65 calmo alto
labrador retriever 35 73 calmo alto
bulldog francese 0,5 11 calmo media
razza mista sconosciuta 4 45 eccitabile alto
basset hound 9 48 calmo media
Riesci a identificare eventuali problemi con i dati delle caratteristiche?
Fai clic qui per vedere la risposta

Distorsione dei dati

Qualsiasi tipo di disallineamento nei dati, in cui determinati gruppi o caratteristiche potrebbero sotto o sovrarappresentati rispetto alla loro diffusione nel mondo reale, possono introdurre dei pregiudizi nel modello.

Quando si controllano le prestazioni del modello, è importante non solo guardare i risultati aggregati, ma suddividere i risultati per sottogruppo. Ad esempio, nel caso di il nostro modello di adottabilità dei cani da salvataggio. Per garantire l'equità, non è sufficiente si limita a considerare l'accuratezza complessiva. Dobbiamo anche controllare le prestazioni per sottogruppo per garantire che il modello funzioni correttamente per ogni razza canina, età e gruppo di dimensioni.

Più avanti in questo modulo, in Valutazione dei bias, dai un'occhiata più da vicino ai diversi metodi per valutare i modelli in base al sottogruppo.