Fairness: Arten von Voreingenommenheit

Modelle für maschinelles Lernen (ML) sind nicht von Natur aus objektiv. ML-Experten trainieren Modelle, indem sie ihnen einen Datensatz mit Trainingsbeispielen zuführen. Die menschliche Beteiligung an der Bereitstellung und Zusammenstellung dieser Daten kann dazu führen, dass die Vorhersagen eines Modells anfällig für Verzerrungen sind.

Beim Erstellen von Modellen ist es wichtig, sich der allgemeinen menschlichen Voreingenommenheiten bewusst zu sein, die sich in Ihren Daten äußern können, damit Sie proaktiv Schritte unternehmen können, um deren Auswirkungen abzuschwächen.

Berichterhebungsverzerrung

Verzerrung durch bisherige Daten

Automatisierungsbias

Auswahlverzerrung

Stichprobenverzerrung tritt auf, wenn die ausgewählten Beispiele eines Datasets nicht der tatsächlichen Verteilung der Daten entsprechen. Es gibt viele Arten des Stichprobenbias, wie zum Beispiel den Coverage Bias, den Nichterwiderungbias und den Stichprobenbias.

Coverage Bias

Non-Response-Bias

Sampling Bias

Gruppenattributionsbias

Der Gruppenattributionsbias ist die Tendenz, Merkmale von Einzelnen auf die gesamte Gruppe zu übertragen, der sie angehören. Der Gruppenattributionsbias äußert sich oft in den folgenden zwei Formen.

Gruppenintern

Gruppenextern (Homogenitätsbias)

Impliziter Bias

Bestätigungsfehler

Verzerrung durch Experimentator

Übung: Wissen testen

Welche der folgenden Arten von Verzerrungen könnten zu den verzerrten Vorhersagen im in der Einführung beschriebenen Hochschulzulassungsmodell beigetragen haben?
Verzerrung durch bisherige Daten
Das Zulassungsmodell wurde anhand von Schüler-/Studentendaten aus den letzten 20 Jahren trainiert. Wenn in diesen Daten Minderheiten unterrepräsentiert waren, hätte das Modell bei der Vorhersage von Daten zu neuen Schülern und Studenten dieselben historischen Ungerechtigkeiten reproduzieren können.
Gruppenintern
Das Zulassungsmodell wurde von aktuellen Universitätsstudenten trainiert, die möglicherweise unbewusst die Zulassung von Studenten mit einem ähnlichen Hintergrund wie ihrem eigenen bevorzugen. Dies hätte wiederum Einfluss darauf haben können, wie sie die Daten, auf denen das Modell trainiert wurde, ausgewählt oder entwickelt haben.
Bestätigungsfehler
Das Zulassungsmodell wurde von aktuellen Universitätsstudenten trainiert, die wahrscheinlich bereits vorgefasste Meinungen dazu hatten, welche Arten von Qualifikationen mit Erfolg im Informatikprogramm korrelieren. Möglicherweise haben sie die Daten versehentlich so ausgewählt oder Feature-Engineering angewendet, dass das Modell diese bestehenden Überzeugungen bestätigt hat.
Automatisierungsbias
Der Automatisierungsbias könnte erklären, warum die Zulassungskommission sich für ein ML-Modell zur Entscheidungsfindung entschieden hat. Möglicherweise ging sie davon aus, dass ein automatisiertes System bessere Ergebnisse erzielen würde als Entscheidungen, die von Menschen getroffen werden. Der Automatisierungsbias liefert jedoch keine Informationen dazu, warum die Vorhersagen des Modells verzerrt waren.