Quando prepari i dati per l'addestramento e la valutazione del modello, è importante tenere a mente i problemi di equità e verificare la presenza di potenziali fonti di bias, in modo da poter mitigarne gli effetti in modo proattivo prima di rilasciare il modello in produzione.
Dove possono nascondersi i pregiudizi? Ecco alcuni segnali di allarme da tenere d'occhio nel tuo set di dati.
Valori delle caratteristiche mancanti
Se il set di dati ha una o più caratteristiche con valori mancanti per un di esempi, questo potrebbe indicare che alcune caratteristiche chiave del tuo set di dati sono sottorappresentati.
Allenamento: verifica le tue conoscenze
Scoprirai che 1500 dei 5000 esempi presenti nel set di addestramento sono valori di temperamento mancanti. Quali delle seguenti sono fonti potenziali pregiudizi che dovresti esaminare?
Valori delle caratteristiche imprevisti
Quando esplori i dati, dovresti anche cercare esempi che contengono valori delle caratteristiche particolarmente insoliti o insoliti. Queste funzionalità inaspettate potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o inesattezze che potrebbero introdurre bias.
Allenamento: verifica le tue conoscenze
Esamina il seguente insieme ipotetico di esempi per addestrare un cane da soccorso di adottare un modello di adottabilità.
razza | età (anni) | peso (kg) | temperamento | shedding_level |
---|---|---|---|---|
barboncino toy | 2 | 12 | eccitabile | basso |
golden retriever | 7 | 65 | calmo | alto |
labrador retriever | 35 | 73 | calmo | alto |
bulldog francese | 0,5 | 11 | calmo | media |
razza mista sconosciuta | 4 | 45 | eccitabile | alto |
basset hound | 9 | 48 | calmo | media |
razza | età (anni) | peso (kg) | temperamento | shedding_level |
---|---|---|---|---|
barboncino toy | 2 | 12 | eccitabile | basso |
golden retriever | 7 | 65 | calmo | alto |
labrador retriever | 35 | 73 | calmo | alto |
bulldog francese | 0,5 | 11 | calmo | media |
razza mista sconosciuta | 4 | 45 | eccitabile | alto |
basset hound | 9 | 48 | calmo | media |
Il cane più grande la cui età è stata verificata dal Guinness World Record era Bluey, un Australian Cattle Dog che ha vissuto fino a 29 anni e 5 mesi. Detto questo, sembra piuttosto improbabile che il labrador retriever abbia 35 anni, e più probabile che l'età del cane sia stata calcolata o registrata in modo impreciso (forse il cane ha in realtà 3,5 anni). Questo errore potrebbe Può indicare anche problemi di accuratezza più ampi relativi ai dati sull'età presenti nel set di dati. che meritano ulteriori indagini.
Distorsione dei dati
Qualsiasi tipo di disallineamento nei dati, in cui determinati gruppi o caratteristiche potrebbero sotto o sovrarappresentati rispetto alla loro diffusione nel mondo reale, possono introdurre dei pregiudizi nel modello.
Quando si controllano le prestazioni del modello, è importante non solo guardare i risultati aggregati, ma suddividere i risultati per sottogruppo. Ad esempio, nel caso di il nostro modello di adottabilità dei cani da salvataggio. Per garantire l'equità, non è sufficiente si limita a considerare l'accuratezza complessiva. Dobbiamo anche controllare le prestazioni per sottogruppo per garantire che il modello funzioni correttamente per ogni razza canina, età e gruppo di dimensioni.
Più avanti in questo modulo, in Valutazione dei bias, dai un'occhiata più da vicino ai diversi metodi per valutare i modelli in base al sottogruppo.