Equità: identificare i bias
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Quando prepari i dati per l'addestramento e la valutazione del modello, è importante tenere presenti i problemi di equità e verificare la presenza di potenziali fonti di bias, in modo da poter mitigare in modo proattivo i relativi effetti prima di rilasciare il modello in produzione.
Dove potrebbero nascondersi i bias? Ecco alcuni campanelli d'allarme da tenere d'occhio nel tuo set di dati.
Valori delle caratteristiche mancanti
Se il set di dati ha una o più caratteristiche con valori mancanti per un numero elevato di esempi, questo potrebbe indicare che alcune caratteristiche chiave del set di dati sono sottorappresentate.
Esercizio: verifica la tua comprensione
Stai addestrando un modello per prevedere l'adopabilità dei cani da salvataggio in base a una serie di caratteristiche, tra cui razza, età, peso, temperamento e quantità di pelo perso ogni giorno. Il tuo obiettivo è garantire che il modello funzioni correttamente su tutti i tipi di cani, indipendentemente dalle loro caratteristiche fisiche o comportamentali.
Scopri che a 1500 dei 5000 esempi nel set di addestramento mancano i valori di temperamento. Quali delle seguenti sono potenziali
fonti di pregiudizi che dovresti esaminare?
I dati sul temperamento sono più propensi a mancare per determinate razze di
cani.
Se la disponibilità dei dati sul temperamento è correlata alla razza del cane,
questo potrebbe comportare previsioni di adottabilità meno accurate per
determinate razze di cani.
I dati sul temperamento sono più propensi a non essere presenti per i cani di età inferiore a 12 mesi
Se la disponibilità dei dati sul temperamento è correlata all'età, questo potrebbe comportare previsioni di adottabilità meno accurate per
i cuccioli rispetto ai cani adulti.
I dati sul temperamento mancano per tutti i cani salvati dalle grandi città.
A prima vista, potrebbe non sembrare che questa sia una potenziale fonte di bias, poiché i dati mancanti avrebbero lo stesso impatto su tutti i cani delle grandi città, indipendentemente da razza, età, peso e così via. Tuttavia, dobbiamo comunque considerare che la località di provenienza di un cane potrebbe effettivamente servire come sostituto di queste caratteristiche fisiche. Ad esempio, se i cani delle grandi città hanno
una probabilità significativamente maggiore di essere più piccoli rispetto ai cani delle aree più rurali, ciò potrebbe comportare previsioni di adottabilità meno accurate
per i cani di peso inferiore o per determinate razze di cani di piccola taglia.
I dati sul temperamento mancano nel set di dati in modo casuale.
Se i dati sul temperamento mancano davvero in modo casuale, non costituirebbero
una potenziale fonte di bias. Tuttavia, è possibile che i dati sul temperamento sembrino mancanti in modo casuale, ma ulteriori indagini potrebbero rivelare una spiegazione per la discrepanza. Pertanto, è importante eseguire un esame approfondito per escludere altre possibilità, anziché assumere che le lacune nei dati siano casuali.
Valori delle caratteristiche imprevisti
Quando esamini i dati, devi anche cercare esempi che contengono valori delle caratteristiche
che si distinguono come particolarmente insoliti o insoliti. Questi valori di funzionalità imprevisti potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o altre imprecisioni che potrebbero introdurre bias.
Esercizio: verifica la tua comprensione
Esamina il seguente insieme ipotetico di esempi per l'addestramento di un modello di adozione dei cani da salvataggio.
razza |
età (anni) |
peso (lb) |
temperamento |
shedding_level |
barboncino toy |
2 |
12 |
eccitabile |
basso |
golden retriever |
7 |
65 |
calmo |
alto |
labrador retriever |
35 |
73 |
calmo |
alto |
bulldog francese |
0,5 |
11 |
calmo |
media |
Meticcio sconosciuto |
4 |
45 |
eccitabile |
alto |
bassotto |
9 |
48 |
calmo |
media |
Riesci a identificare eventuali problemi con i dati delle caratteristiche?
Fai clic qui per vedere la risposta
razza |
età (anni) |
peso (lb) |
temperamento |
shedding_level |
barboncino toy |
2 |
12 |
eccitabile |
basso |
golden retriever |
7 |
65 |
calmo |
alto |
labrador retriever |
35 |
73 |
calmo |
alto |
bulldog francese |
0,5 |
11 |
calmo |
media |
Meticcio sconosciuto |
4 |
45 |
eccitabile |
alto |
bassotto |
9 |
48 |
calmo |
media |
Il cane più anziano di cui è stata verificata l'età dai Guinness World Records è stato Bluey, un Australian Cattle Dog che ha vissuto fino a 29 anni e 5 mesi. Detto questo, sembra piuttosto improbabile che il labrador retriever abbia effettivamente 35 anni ed è più probabile che l'età del cane sia stata calcolata o registrata in modo impreciso (forse il cane ha in realtà 3,5 anni). Questo errore potrebbe anche indicare problemi di accuratezza più generali con i dati sull'età nel set di dati che meritano ulteriori accertamenti.
Distorsione dei dati
Qualsiasi tipo di distorsione nei dati, in cui determinati gruppi o caratteristiche possono essere sotto o sovrarappresentati rispetto alla loro prevalenza nel mondo reale, può introdurre bias nel modello.
Durante il controllo delle prestazioni del modello, è importante non solo considerare i risultati in
aggregati, ma anche suddividerli per sottogruppo. Ad esempio, nel caso del nostro modello di adottabilità dei cani da salvataggio, per garantire l'equità non è sufficiente considerare semplicemente l'accuratezza complessiva. Occorre anche controllare le prestazioni per sottogruppo
per garantire che il modello funzioni correttamente per ogni razza canina, età e gruppo di taglia.
Più avanti in questo modulo, nella sezione Valutazione per rilevare i bias, esamineremo più da vicino i diversi metodi per valutare i modelli per sottogruppo.
Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.
Ultimo aggiornamento 2024-11-10 UTC.
[null,null,["Ultimo aggiornamento 2024-11-10 UTC."],[[["\u003cp\u003eTraining data should represent real-world prevalence to avoid bias in machine learning models.\u003c/p\u003e\n"],["\u003cp\u003eMissing or unexpected feature values in the dataset can be indicative of potential sources of bias.\u003c/p\u003e\n"],["\u003cp\u003eData skew, where certain groups are under- or over-represented, can introduce bias and should be addressed.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating model performance by subgroup ensures fairness and equal performance across different characteristics.\u003c/p\u003e\n"],["\u003cp\u003eAuditing for bias requires a thorough review of data and model outcomes to mitigate potential negative impacts.\u003c/p\u003e\n"]]],[],null,["# Fairness: Identifying bias\n\nAs you prepare your data for model training and evaluation, it's important to\nkeep issues of fairness in mind and audit for potential sources of\n[**bias**](/machine-learning/glossary#bias-ethicsfairness), so you can\nproactively mitigate its effects before releasing your model into production.\n\nWhere might bias lurk? Here are some red flags to look out for in your dataset.\n\nMissing feature values\n----------------------\n\nIf your dataset has one or more features that have missing values for a large\nnumber of examples, that could be an indicator that certain key characteristics\nof your dataset are under-represented.\n\n### Exercise: Check your understanding\n\nYou're training a model to predict adoptability of rescue dogs based on a variety of features, including breed, age, weight, temperament, and quantity of fur shed each day. Your goal is to ensure the model performs equally well on all types of dogs, irrespective of their physical or behavioral characteristics \n\n\u003cbr /\u003e\n\nYou discover that 1,500 of the 5,000 examples in the training set are\nmissing temperament values. Which of the following are potential sources\nof bias you should investigate? \nTemperament data is more likely to be missing for certain breeds of dogs. \nIf the availability of temperament data correlates with dog breed, then this might result in less accurate adoptability predictions for certain dog breeds. \nTemperament data is more likely to be missing for dogs under 12 months in age \nIf the availability of temperament data correlates with age, then this might result in less accurate adoptability predictions for puppies versus adult dogs. \nTemperament data is missing for all dogs rescued from big cities. \nAt first glance, it might not appear that this is a potential source of bias, since the missing data would affect all dogs from big cities equally, irrespective of their breed, age, weight, etc. However, we still need to consider that the location a dog is from might effectively serve as a proxy for these physical characteristics. For example, if dogs from big cities are significantly more likely to be smaller than dogs from more rural areas, that could result in less accurate adoptability predictions for lower-weight dogs or certain small-dog breeds. \nTemperament data is missing from the dataset at random. \nIf temperament data is truly missing at random, then that would not be a potential source of bias. However, it's possible temperament data might appear to be missing at random, but further investigation might reveal an explanation for the discrepancy. So it's important to do a thorough review to rule out other possibilities, rather than assume data gaps are random.\n\nUnexpected feature values\n-------------------------\n\nWhen exploring data, you should also look for examples that contain feature values\nthat stand out as especially uncharacteristic or unusual. These unexpected feature\nvalues could indicate problems that occurred during data collection or other\ninaccuracies that could introduce bias.\n\n### Exercise: Check your understanding\n\nReview the following hypothetical set of examples for training a rescue-dog\nadoptability model.\n\n| breed | age (yrs) | weight (lbs) | temperament | shedding_level |\n|---------------------|-----------|--------------|-------------|----------------|\n| toy poodle | 2 | 12 | excitable | low |\n| golden retriever | 7 | 65 | calm | high |\n| labrador retriever | 35 | 73 | calm | high |\n| french bulldog | 0.5 | 11 | calm | medium |\n| unknown mixed breed | 4 | 45 | excitable | high |\n| basset hound | 9 | 48 | calm | medium |\n\nCan you identify any problems with the feature data? \nClick here to see the answer \n\n| breed | age (yrs) | weight (lbs) | temperament | shedding_level |\n|---------------------|-----------|--------------|-------------|----------------|\n| toy poodle | 2 | 12 | excitable | low |\n| golden retriever | 7 | 65 | calm | high |\n| labrador retriever | 35 | 73 | calm | high |\n| french bulldog | 0.5 | 11 | calm | medium |\n| unknown mixed breed | 4 | 45 | excitable | high |\n| basset hound | 9 | 48 | calm | medium |\n\nThe oldest dog to have their age verified by *Guinness World Records*\nwas [Bluey](https://wikipedia.org/wiki/Bluey_(long-lived_dog)),\nan Australian Cattle Dog who lived to be 29 years and 5 months. Given that, it\nseems quite implausible that the labrador retriever is actually 35 years old,\nand more likely that the dog's age was either calculated or recorded\ninaccurately (maybe the dog is actually 3.5 years old). This error could\nalso be indicative of broader accuracy issues with age data in the dataset\nthat merit further investigation.\n\nData skew\n---------\n\nAny sort of skew in your data, where certain groups or characteristics may be\nunder- or over-represented relative to their real-world prevalence, can\nintroduce bias into your model.\n\nWhen auditing model performance, it's important not only to look at results in\naggregate, but to break out results by subgroup. For example, in the case of\nour rescue-dog adoptability model, to ensure fairness, it's not sufficient to\nsimply look at overall accuracy. We should also audit performance by subgroup\nto ensure the model performs equally well for each dog breed, age group, and\nsize group.\n\nLater in this module, in [Evaluating for Bias](/machine-learning/crash-course/fairness/evaluating-for-bias), we'll\ntake a closer look at different methods for evaluating models by subgroup.\n| **Key terms:**\n|\n- [Bias (ethics/fairness)](/machine-learning/glossary#bias-ethicsfairness) \n[Help Center](https://support.google.com/machinelearningeducation)"]]