Wenn Sie Ihre Daten für das Training und die Bewertung des Modells vorbereiten, ist es wichtig, Probleme der Fairness zu berücksichtigen und mögliche Quellen der Voreingenommenheit, sodass Sie proaktiv die Auswirkungen abzumildern, bevor Sie Ihr Modell in die Produktion freigeben.
Wo könnten Verzerrungen auftreten? Hier sind einige Warnsignale, auf die Sie in Ihrem Dataset achten sollten.
Fehlende Featurewerte
Wenn Ihr Dataset ein oder mehrere Merkmale enthält, bei denen für eine Beispiele dafür sein, dass bestimmte Schlüsselmerkmale Ihres Datasets unterrepräsentiert sind.
Übung: Wissenstest
Sie stellen fest, dass 1.500 der 5.000 Beispiele im Trainings-Dataset Temperamentwerte fehlen. Welche der folgenden Quellen sind potenzielle Quellen? Voreingenommenheiten, die Sie untersuchen sollten?
Unerwartete Featurewerte
Bei der Untersuchung von Daten sollten Sie auch nach Beispielen suchen, die Featurewerte enthalten die besonders ungewöhnlich oder ungewöhnlich sind. Diese unerwartete Funktion können auf Probleme hinweisen, die während der Datenerfassung oder Ungenauigkeiten, die zu Verzerrungen führen können.
Übung: Wissenstest
Sehen Sie sich die folgenden hypothetischen Beispiele für das Training eines Rettungshunds an Akzeptanzmodells.
rasse | Alter (Jahre) | Gewicht (lbs) | Temperament | shedding_level |
---|---|---|---|---|
Zwergpudel | 2 | 12 | aufregend | niedrig |
Golden Retriever | 7 | 65 | ruhig | hoch |
Labrador Retriever | 35 | 73 | ruhig | hoch |
Französische Bulldogge | 0,5 | 11 | ruhig | mittel |
Unbekannte Mischart | 4 | 45 | aufregend | hoch |
Basset Hound | 9 | 48 | ruhig | mittel |
rasse | Alter (Jahre) | Gewicht (lbs) | Temperament | shedding_level |
---|---|---|---|---|
Zwergpudel | 2 | 12 | aufregend | niedrig |
Golden Retriever | 7 | 65 | ruhig | hoch |
Labrador Retriever | 35 | 73 | ruhig | hoch |
Französische Bulldogge | 0,5 | 11 | ruhig | mittel |
Unbekannte Mischart | 4 | 45 | aufregend | hoch |
Basset Hound | 9 | 48 | ruhig | mittel |
Der älteste Hund, dessen Alter gemäß den Guinness-Weltrekorden verifiziert wurde war Bluey, ein Australian Cattle Dog, der 29 Jahre und 5 Monate alt wurde. Vor diesem Hintergrund Unglaublich, dass der Labrador Retriever eigentlich 35 Jahre alt ist, und es ist wahrscheinlicher, dass das Alter des Hundes berechnet oder aufgezeichnet wurde, ungenau (vielleicht ist der Hund eigentlich 3,5 Jahre alt). Dieser Fehler könnte auch ein Hinweis auf umfassendere Genauigkeitsprobleme bei Altersdaten im Dataset sein. die weitere Untersuchung erfordern.
Datenverzerrung
Jede Art von Verzerrung in Ihren Daten, bei der bestimmte Gruppen oder Merkmale im Vergleich zu ihrer realen Verbreitung unter- oder überrepräsentiert sind, Verzerrungen in Ihr Modell bringen.
Bei der Prüfung der Modellleistung ist es nicht nur wichtig, aggregiert, sondern die Ergebnisse nach Untergruppen aufgeschlüsselt. Im Fall von um Fairness zu gewährleisten, reicht es nicht aus, die Gesamtgenauigkeit betrachten. Außerdem sollten wir die Leistung nach Untergruppen prüfen. um sicherzustellen, dass das Modell für jede Hunderasse, Altersgruppe und Größengruppe.
Im weiteren Verlauf dieses Moduls, im Abschnitt Auf Verzerrung bewerten, werden wir Methoden zur Bewertung von Modellen nach Untergruppe genauer an.