Quando prepari i dati per l'addestramento e la valutazione del modello, è importante tenere presenti i problemi di equità e verificare la presenza di potenziali fonti di bias, in modo da poter mitigare in modo proattivo i relativi effetti prima di rilasciare il modello in produzione.
Dove potrebbero nascondersi i bias? Ecco alcuni campanelli d'allarme da tenere d'occhio nel tuo set di dati.
Valori delle caratteristiche mancanti
Se il set di dati ha una o più caratteristiche con valori mancanti per un numero elevato di esempi, questo potrebbe indicare che alcune caratteristiche chiave del set di dati sono sottorappresentate.
Esercizio: verifica la tua comprensione
Scopri che a 1500 dei 5000 esempi nel set di addestramento mancano i valori di temperamento. Quali delle seguenti sono potenziali fonti di pregiudizi che dovresti esaminare?
Valori delle caratteristiche imprevisti
Quando esamini i dati, devi anche cercare esempi che contengono valori delle caratteristiche che si distinguono come particolarmente insoliti o insoliti. Questi valori di funzionalità imprevisti potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o altre imprecisioni che potrebbero introdurre bias.
Esercizio: verifica la tua comprensione
Esamina il seguente insieme ipotetico di esempi per l'addestramento di un modello di adozione dei cani da salvataggio.
razza | età (anni) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
barboncino toy | 2 | 12 | eccitabile | basso |
golden retriever | 7 | 65 | calmo | alto |
labrador retriever | 35 | 73 | calmo | alto |
bulldog francese | 0,5 | 11 | calmo | media |
Meticcio sconosciuto | 4 | 45 | eccitabile | alto |
bassotto | 9 | 48 | calmo | media |
razza | età (anni) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
barboncino toy | 2 | 12 | eccitabile | basso |
golden retriever | 7 | 65 | calmo | alto |
labrador retriever | 35 | 73 | calmo | alto |
bulldog francese | 0,5 | 11 | calmo | media |
Meticcio sconosciuto | 4 | 45 | eccitabile | alto |
bassotto | 9 | 48 | calmo | media |
Il cane più anziano di cui è stata verificata l'età dai Guinness World Records è stato Bluey, un Australian Cattle Dog che ha vissuto fino a 29 anni e 5 mesi. Detto questo, sembra piuttosto improbabile che il labrador retriever abbia effettivamente 35 anni ed è più probabile che l'età del cane sia stata calcolata o registrata in modo impreciso (forse il cane ha in realtà 3,5 anni). Questo errore potrebbe anche indicare problemi di accuratezza più generali con i dati sull'età nel set di dati che meritano ulteriori accertamenti.
Distorsione dei dati
Qualsiasi tipo di distorsione nei dati, in cui determinati gruppi o caratteristiche possono essere sotto o sovrarappresentati rispetto alla loro prevalenza nel mondo reale, può introdurre bias nel modello.
Durante il controllo delle prestazioni del modello, è importante non solo considerare i risultati in aggregati, ma anche suddividerli per sottogruppo. Ad esempio, nel caso del nostro modello di adottabilità dei cani da salvataggio, per garantire l'equità non è sufficiente considerare semplicemente l'accuratezza complessiva. Occorre anche controllare le prestazioni per sottogruppo per garantire che il modello funzioni correttamente per ogni razza canina, età e gruppo di taglia.
Più avanti in questo modulo, nella sezione Valutazione per rilevare i bias, esamineremo più da vicino i diversi metodi per valutare i modelli per sottogruppo.