Diese Seite wurde von der Cloud Translation API übersetzt.

Fairness: Arten von Voreingenommenheit

Modelle für maschinelles Lernen (ML) sind nicht von Natur aus objektiv. ML-Experten trainieren Modelle, indem sie ihnen einen Datensatz mit Trainingsbeispielen zuführen. Die menschliche Beteiligung an der Bereitstellung und Zusammenstellung dieser Daten kann dazu führen, dass die Vorhersagen eines Modells anfällig für Verzerrungen sind.

Beim Erstellen von Modellen ist es wichtig, sich der allgemeinen menschlichen Voreingenommenheiten bewusst zu sein, die sich in Ihren Daten äußern können, damit Sie proaktiv Schritte unternehmen können, um deren Auswirkungen abzuschwächen.

Berichterhebungsverzerrung

Definition

Ein Reporting Bias liegt vor, wenn die Häufigkeit von Ereignissen, Eigenschaften und/oder Ergebnissen in einem Dataset nicht ihre tatsächliche Häufigkeit widerspiegelt. Diese Voreingenommenheit kann entstehen, weil sich Menschen tendenziell auf die Dokumentation von ungewöhnlichen oder besonders einprägsamen Umständen konzentrieren, und zwar in der Annahme, dass das Gewöhnliche nicht aufgezeichnet werden muss.

Klicken Sie auf chevron_right, um ein Beispiel aufzurufen.
Beispiel

Ein Sentimentanalysemodell wird darauf trainiert, anhand eines Korpus von Nutzerbeiträgen auf einer beliebten Website vorherzusagen, ob Buchrezensionen positiv oder negativ sind. Die meisten Rezensionen im Trainings-Dataset spiegeln extreme Meinungen wider (Rezensenten, die ein Buch entweder mochten oder gehasst haben), da die Wahrscheinlichkeit geringer ist, dass Nutzer eine Rezension für ein Buch abgeben, wenn sie nicht gut darauf reagierten. Das Modell kann daher die Meinung von Rezensionen, in denen ein Buch mit subtilerer Sprache beschrieben wird, weniger genau vorhersagen.

Klicken Sie auf chevron_left für die Definition.

Verzerrung durch bisherige Daten

Definition

Historische Verzerrungen treten auf, wenn historische Daten Ungleichheiten widerspiegeln, die es zu diesem Zeitpunkt in der Welt gab.

Klicken Sie als Beispiel auf chevron_right.
Beispiel

Ein Datensatz zu Wohnraum in einer Stadt aus den 1960er-Jahren enthält Daten zu Hauspreisen, die diskriminierende Kreditvergabepraktiken widerspiegeln, die in diesem Jahrzehnt in Kraft waren.

Klicken Sie auf chevron_left für die Definition.

Automatisierungsbias

Definition

Der Automatisierungsbias ist die Tendenz, unabhängig von Fehlerquoten automatisch generierte Ergebnisse gegenüber jenen zu bevorzugen, die nicht automatisch generiert wurden.

Klicken Sie als Beispiel auf chevron_right.
Beispiel

Die ML-Experten eines Kettenradherstellers wollten unbedingt das neue „bahnbrechende“ Modell zur Erkennung von Zahnfehlern einsetzen, das sie trainiert hatten. Der Betriebsleiter wies jedoch darauf hin, dass die Genauigkeit und Rückrufraten des Modells um 15% niedriger waren als die der menschlichen Prüfer.

Klicken Sie auf chevron_left für die Definition.

Auswahlverzerrung

Stichprobenverzerrung tritt auf, wenn die ausgewählten Beispiele eines Datasets nicht der tatsächlichen Verteilung der Daten entsprechen. Es gibt viele Arten des Stichprobenbias, wie zum Beispiel den Coverage Bias, den Nichterwiderungbias und den Stichprobenbias.

Coverage Bias

Definition

Abdeckungsverzerrung tritt auf, wenn Daten nicht repräsentativ ausgewählt werden.

Klicken Sie für ein Beispiel auf chevron_right.
Beispiel

Ein Modell wird trainiert, um zukünftige Verkäufe eines neuen Produkts anhand von Telefonumfragen mit einer Stichprobe von Verbrauchern vorherzusagen, die das Produkt gekauft haben. Verbraucher, die sich stattdessen für ein Konkurrenzprodukt entschieden haben, wurden nicht befragt. Daher war diese Gruppe in den Trainingsdaten nicht vertreten.

Klicken Sie auf chevron_left für die Definition.

Non-Response-Bias

Definition

Ein Non-Response-Verzerrungseffekt (auch als Teilnahmeverzerrung bezeichnet) tritt auf, wenn Daten aufgrund von Beteiligungslücken im Datenerfassungsprozess nicht repräsentativ sind.

Klicken Sie als Beispiel auf chevron_right.
Beispiel

Ein Modell wird trainiert, um den zukünftigen Verkauf eines neuen Produkts anhand von Telefonumfragen vorherzusagen. Diese werden mit einer Stichprobe von Nutzern, die das Produkt gekauft haben, und mit einer Stichprobe von Nutzern, die ein Konkurrenzprodukt gekauft haben, durchgeführt. Verbraucher, die das Konkurrenzprodukt gekauft hatten, lehnten die Umfrage mit 80% höherer Wahrscheinlichkeit ab und ihre Daten waren in der Stichprobe unterrepräsentiert.

Klicken Sie auf chevron_left für die Definition.

Sampling Bias

Definition

Stichprobenverzerrung tritt auf, wenn bei der Datenerhebung keine geeignete Randomisierung verwendet wird.

Klicken Sie für ein Beispiel auf chevron_right.
Beispiel

Ein Modell wird trainiert, um den zukünftigen Verkauf eines neuen Produkts anhand von Telefonumfragen vorherzusagen. Diese werden mit einer Stichprobe von Nutzern, die das Produkt gekauft haben, und mit einer Stichprobe von Nutzern, die ein Konkurrenzprodukt gekauft haben, durchgeführt. Anstatt die Umfrage nach dem Zufallsprinzip auf Verbraucher auszurichten, wählte der Umfrageteilnehmer die ersten 200 Nutzer aus, die auf eine E-Mail geantwortet haben und die sich möglicherweise eher für das Produkt begeistern als die Durchschnittskäufer.

Klicken Sie auf chevron_left für die Definition.

Gruppenattributionsbias

Der Gruppenattributionsbias ist die Tendenz, Merkmale von Einzelnen auf die gesamte Gruppe zu übertragen, der sie angehören. Der Gruppenattributionsbias äußert sich oft in den folgenden zwei Formen.

Gruppenintern

Definition

Der In-Group-Bias ist eine Präferenz für Mitglieder Ihrer eigenen Gruppe, zu der Sie auch selbst gehören, oder für Merkmale, die Sie gemeinsam haben.

Klicken Sie als Beispiel auf chevron_right.
Beispiel

Zwei ML-Experten, die ein Modell zum Überprüfen von Lebensläufen für Softwareentwickler trainieren, sind der Meinung, dass Bewerber, die dieselbe Informatikschule besucht haben wie sie selbst, besser für die Stelle geeignet sind.

Klicken Sie auf chevron_left für die Definition.

Gruppenextern (Homogenitätsbias)

Definition

Der Homogenitätsbias ist die Tendenz, einzelne Mitglieder einer Gruppe, zu der man nicht gehört, zu stereotypisieren oder ihre Eigenschaften als einheitlich zu betrachten.

Klicken Sie als Beispiel auf chevron_right.
Beispiel

Zwei ML-Experten, die ein Modell zur Lebenslaufprüfung für Softwareentwickler trainieren, sind der Meinung, dass alle Bewerber, die keine Informatikschule besucht haben, nicht über ausreichende Fachkenntnisse für die Stelle verfügen.

Klicken Sie auf chevron_left für die Definition.

Impliziter Bias

Definition

Implizite Voreingenommenheit tritt auf, wenn Annahmen auf der Grundlage des eigenen Denkmodells und persönlichen Erfahrungen getroffen werden, die nicht unbedingt allgemein gelten.

Klicken Sie für ein Beispiel auf chevron_right.
Beispiel

Ein ML-Experte, der ein Modell zur Gestenerkennung trainiert, verwendet ein Nicken als Merkmal, um anzugeben, dass eine Person das Wort „Nein“ kommuniziert. In einigen Regionen der Welt bedeutet ein Kopfschütteln jedoch "Ja".

Klicken Sie für die Definition auf chevron_left.

Bestätigungsfehler

Definition

Der Bestätigungsfehler tritt auf, wenn die Ersteller von Modellen Daten unbewusst so verarbeiten, dass vorgefasste Überzeugungen und Hypothesen bestätigt werden.

Klicken Sie als Beispiel auf chevron_right.
Beispiel

Ein ML-Experte erstellt ein Modell, mit dem die Aggressivität von Hunden anhand verschiedener Merkmale (Größe, Gewicht, Rasse, Umgebung) vorhergesagt wird. Die Fachkraft hatte als Kind eine unangenehme Begegnung mit einem hyperaktiven Toypudel und verbindet die Rasse seitdem mit Aggression. Bei der Zusammenstellung der Trainingsdaten des Modells hat der Praktiker unbewusst Merkmale verworfen, die auf die Gutmütigkeit kleinerer Hunde hinwiesen.

Klicken Sie auf chevron_left für die Definition.

Verzerrung durch Experimentator

Definition

Der Tester-Bias tritt auf, wenn ein Modellbauer ein Modell so lange trainiert, bis es ein Ergebnis liefert, das mit seiner ursprünglichen Hypothese übereinstimmt.

Klicken Sie als Beispiel auf chevron_right.
Beispiel

Ein ML-Experte erstellt ein Modell, das die Aggressivität von Hunden anhand einer Vielzahl von Merkmalen (Größe, Gewicht, Rasse, Umgebung) vorhersagt. Die Fachkraft hatte als Kind eine unangenehme Begegnung mit einem hyperaktiven Toypudel und verbindet die Rasse seitdem mit Aggression. Als das trainierte Modell vorhersagte, dass die meisten Zwergpudel relativ sanftmütig seien, trainierte der Arzt das Modell mehrmals, bis es ein Ergebnis zeigte, dass kleinere Pudel gewalttätiger sind.

Klicken Sie auf chevron_left für die Definition.

Übung: Wissen testen

Welche der folgenden Arten von Verzerrungen könnten zu den verzerrten Vorhersagen im in der Einführung beschriebenen Hochschulzulassungsmodell beigetragen haben?

Verzerrung durch bisherige Daten

Das Zulassungsmodell wurde anhand von Schüler-/Studentendaten aus den letzten 20 Jahren trainiert. Wenn in diesen Daten Minderheiten unterrepräsentiert waren, hätte das Modell bei der Vorhersage von Daten zu neuen Schülern und Studenten dieselben historischen Ungerechtigkeiten reproduzieren können.

Gruppenintern

Das Zulassungsmodell wurde von aktuellen Universitätsstudenten trainiert, die möglicherweise unbewusst die Zulassung von Studenten mit einem ähnlichen Hintergrund wie ihrem eigenen bevorzugen. Dies hätte wiederum Einfluss darauf haben können, wie sie die Daten, auf denen das Modell trainiert wurde, ausgewählt oder entwickelt haben.

Bestätigungsfehler

Das Zulassungsmodell wurde von aktuellen Universitätsstudenten trainiert, die wahrscheinlich bereits vorgefasste Meinungen dazu hatten, welche Arten von Qualifikationen mit Erfolg im Informatikprogramm korrelieren. Möglicherweise haben sie die Daten versehentlich so ausgewählt oder Feature-Engineering angewendet, dass das Modell diese bestehenden Überzeugungen bestätigt hat.

Automatisierungsbias

Der Automatisierungsbias könnte erklären, warum die Zulassungskommission sich für ein ML-Modell zur Entscheidungsfindung entschieden hat. Möglicherweise ging sie davon aus, dass ein automatisiertes System bessere Ergebnisse erzielen würde als Entscheidungen, die von Menschen getroffen werden. Der Automatisierungsbias liefert jedoch keine Informationen dazu, warum die Vorhersagen des Modells verzerrt waren.

Zurück

Vorstellung (5 Min.)

Weiter

Verzerrungen erkennen (10 min)

Fairness: Arten von Voreingenommenheit

Berichterhebungsverzerrung

Definition

Beispiel

Verzerrung durch bisherige Daten

Definition

Beispiel

Automatisierungsbias

Definition

Beispiel

Auswahlverzerrung

Coverage Bias

Definition

Beispiel

Non-Response-Bias

Definition

Beispiel

Sampling Bias

Definition

Beispiel

Gruppenattributionsbias

Gruppenintern

Definition

Beispiel

Gruppenextern (Homogenitätsbias)

Definition

Beispiel

Impliziter Bias

Definition

Beispiel

Bestätigungsfehler

Definition

Beispiel

Verzerrung durch Experimentator

Definition

Beispiel

Übung: Wissen testen