Wenn Sie Ihre Daten für das Modelltraining und die Modellbewertung vorbereiten, sollten Sie Fragen der Fairness berücksichtigen und nach potenziellen Quellen von Voreingenommenheit suchen, damit Sie deren Auswirkungen proaktiv abmildern können, bevor Sie Ihr Modell in die Produktion übernehmen.
Wo könnte es zu Voreingenommenheit kommen? Im Folgenden finden Sie einige Warnsignale, auf die Sie in Ihrem Datenpool achten sollten.
Fehlende Featurewerte
Wenn Ihr Datensatz mindestens ein Feature mit fehlenden Werten für eine große Anzahl von Beispielen enthält, kann dies ein Hinweis darauf sein, dass bestimmte wichtige Merkmale Ihres Datensatzes unterrepräsentiert sind.
Übung: Wissen testen
Sie stellen fest, dass für 1.500 der 5.000 Beispiele im Trainingssatz keine Werte für das Temperament vorhanden sind. Welche der folgenden potenziellen Quellen von Voreingenommenheit sollten Sie untersuchen?
Unerwartete Featurewerte
Bei der explorativen Datenanalyse sollten Sie auch nach Beispielen suchen, die Merkmalswerte enthalten, die sich als besonders untypisch oder ungewöhnlich herausstellen. Diese unerwarteten Funktionswerte können auf Probleme während der Datenerhebung oder andere Ungenauigkeiten hinweisen, die zu Verzerrungen führen können.
Übung: Wissen testen
Sehen Sie sich die folgenden hypothetischen Beispiele für das Training eines Modells zur Eignung von Hunden für die Adoption an.
rasse | Alter (Jahre) | Gewicht (lbs) | Temperament | shedding_level |
---|---|---|---|---|
Toypudel | 2 | 12 | erregt | niedrig |
Golden Retriever | 7 | 65 | ruhig | hoch |
Labrador Retriever | 35 | 73 | ruhig | hoch |
Französische Bulldogge | 0,5 | 11 | ruhig | mittel |
unbekannte Mischlingsrasse | 4 | 45 | aufregend | hoch |
Basset Hound | 9 | 48 | ruhig | mittel |
rasse | Alter (Jahre) | Gewicht (lbs) | Temperament | shedding_level |
---|---|---|---|---|
Toypudel | 2 | 12 | erregt | niedrig |
Golden Retriever | 7 | 65 | ruhig | hoch |
Labrador Retriever | 35 | 73 | ruhig | hoch |
Französische Bulldogge | 0,5 | 11 | ruhig | mittel |
unbekannte Mischlingsrasse | 4 | 45 | aufregend | hoch |
Basset Hound | 9 | 48 | ruhig | mittel |
Der älteste Hund, dessen Alter vom Guinness-Buch der Rekorde bestätigt wurde, war Bluey, ein australischer Rinderhund, der 29 Jahre und 5 Monate alt wurde. Daher ist es ziemlich unwahrscheinlich, dass der Labrador Retriever tatsächlich 35 Jahre alt ist.Es ist wahrscheinlicher, dass das Alter des Hundes entweder falsch berechnet oder falsch aufgezeichnet wurde (vielleicht ist der Hund tatsächlich 3,5 Jahre alt). Dieser Fehler könnte auch auf allgemeinere Genauigkeitsprobleme bei Altersdaten im Dataset hinweisen, die eine weitere Untersuchung erfordern.
Datenverzerrung
Jegliche Abweichungen in Ihren Daten, bei denen bestimmte Gruppen oder Merkmale im Vergleich zu ihrer tatsächlichen Verbreitung unter- oder überrepräsentiert sind, können zu Verzerrungen in Ihrem Modell führen.
Bei der Analyse der Modellleistung ist es wichtig, nicht nur die Gesamtergebnisse zu betrachten, sondern auch die Ergebnisse nach Untergruppe aufzuschlüsseln. Bei unserem Modell für die Adoptionsfähigkeit von Rettungshunden reicht es zur Gewährleistung von Fairness nicht aus, einfach nur die Gesamtgenauigkeit zu betrachten. Außerdem sollten wir die Leistung nach Untergruppe prüfen, um sicherzustellen, dass das Modell für jede Hunderasse, Altersgruppe und Größengruppe gleichermaßen gut funktioniert.
Später in diesem Modul, unter Auf Voreingenommenheit prüfen, sehen wir uns verschiedene Methoden zur Bewertung von Modellen nach Untergruppe genauer an.