Fairness: Voreingenommenheiten erkennen

Wenn Sie Ihre Daten für das Training und die Bewertung des Modells vorbereiten, ist es wichtig, Probleme der Fairness zu berücksichtigen und mögliche Quellen der Voreingenommenheit, sodass Sie proaktiv die Auswirkungen abzumildern, bevor Sie Ihr Modell in die Produktion freigeben.

Wo könnten Verzerrungen auftreten? Hier sind einige Warnsignale, auf die Sie in Ihrem Dataset achten sollten.

Fehlende Featurewerte

Wenn Ihr Dataset ein oder mehrere Merkmale enthält, bei denen für eine Beispiele dafür sein, dass bestimmte Schlüsselmerkmale Ihres Datasets unterrepräsentiert sind.

Übung: Wissenstest

Sie trainieren ein Modell, das die Akzeptanz von Rettungshunden prognostiziert. z. B. Rasse, Alter, Gewicht, Temperament, und die Menge an Fellschuppen. Ihr Ziel ist es, sicherzustellen, eignet sich für alle Hundetypen, unabhängig von ihrem körperlichen oder Verhaltensmerkmale

Sie stellen fest, dass 1.500 der 5.000 Beispiele im Trainings-Dataset Temperamentwerte fehlen. Welche der folgenden Quellen sind potenzielle Quellen? Voreingenommenheiten, die Sie untersuchen sollten?

Temperamentdaten fehlen bei bestimmten Rassen mit größerer Wahrscheinlichkeit Hunde.
Wenn die Verfügbarkeit von Temperamentdaten mit der Hunderasse korreliert, kann dies zu ungenaueren Vorhersagen zur Akzeptanz führen. bestimmten Hunderassen.
Bei Hunden unter 12 Jahren fehlt die Wahrscheinlichkeit, dass Daten zum Temperament fehlen Monate im Alter
Wenn die Verfügbarkeit von Temperamentdaten mit dem Alter korreliert, kann dies zu ungenaueren Vorhersagen zur Akzeptanz führen. Welpen im Vergleich zu erwachsenen Hunden.
Für alle aus Großstädten geretteten Hunde fehlen Daten zum Temperament.
Auf den ersten Blick scheint es nicht den Anschein zu erwecken, dass es sich hierbei um eine potenzielle Quelle handelt. da die fehlenden Daten alle Hunde betreffen würden, von großen und zwar unabhängig von Rasse, Alter, Gewicht usw. Wir müssen jedoch berücksichtigen, dass der Ort, aus dem ein Hund stammt, kann effektiv als Proxy für diese physischen Eigenschaften. Wenn beispielsweise Hunde aus Großstädten wesentlich kleiner als Hunde aus ländlichen Gegenden die zu weniger genauen Vorhersagen über die Akzeptanz führen könnten, für weniger schwere Hunde oder bestimmte kleine Hunderassen geeignet.
Temperamentdaten fehlen im Dataset nach dem Zufallsprinzip.
Wenn Temperamentdaten wirklich zufällig fehlen, eine potenzielle Quelle der Voreingenommenheit sein. Es ist jedoch möglich, Daten scheinen zufällig zu fehlen, aber weitere Untersuchungen kann eine Erklärung für die Diskrepanz liefern. Daher ist es wichtig, eine gründliche Prüfung durchführen, um andere Möglichkeiten auszuschließen, dass Datenlücken zufällig sind.

Unerwartete Featurewerte

Bei der Untersuchung von Daten sollten Sie auch nach Beispielen suchen, die Featurewerte enthalten die besonders ungewöhnlich oder ungewöhnlich sind. Diese unerwartete Funktion können auf Probleme hinweisen, die während der Datenerfassung oder Ungenauigkeiten, die zu Verzerrungen führen können.

Übung: Wissenstest

Sehen Sie sich die folgenden hypothetischen Beispiele für das Training eines Rettungshunds an Akzeptanzmodells.

rasse Alter (Jahre) Gewicht (lbs) Temperament shedding_level
Zwergpudel 2 12 aufregend niedrig
Golden Retriever 7 65 ruhig hoch
Labrador Retriever 35 73 ruhig hoch
Französische Bulldogge 0,5 11 ruhig mittel
Unbekannte Mischart 4 45 aufregend hoch
Basset Hound 9 48 ruhig mittel
Können Sie Probleme mit den Featuredaten feststellen?
Klicke hier, um die Antwort anzuzeigen.

Datenverzerrung

Jede Art von Verzerrung in Ihren Daten, bei der bestimmte Gruppen oder Merkmale im Vergleich zu ihrer realen Verbreitung unter- oder überrepräsentiert sind, Verzerrungen in Ihr Modell bringen.

Bei der Prüfung der Modellleistung ist es nicht nur wichtig, aggregiert, sondern die Ergebnisse nach Untergruppen aufgeschlüsselt. Im Fall von um Fairness zu gewährleisten, reicht es nicht aus, die Gesamtgenauigkeit betrachten. Außerdem sollten wir die Leistung nach Untergruppen prüfen. um sicherzustellen, dass das Modell für jede Hunderasse, Altersgruppe und Größengruppe.

Im weiteren Verlauf dieses Moduls, im Abschnitt Auf Verzerrung bewerten, werden wir Methoden zur Bewertung von Modellen nach Untergruppe genauer an.