Modelle für maschinelles Lernen (ML) sind nicht von Natur aus objektiv. ML-Experten trainieren Modelle, indem sie ihnen einen Datensatz mit Trainingsbeispielen zuführen. Die menschliche Beteiligung an der Bereitstellung und Zusammenstellung dieser Daten kann dazu führen, dass die Vorhersagen eines Modells anfällig für Verzerrungen sind.
Beim Erstellen von Modellen ist es wichtig, sich der allgemeinen menschlichen Voreingenommenheiten bewusst zu sein, die sich in Ihren Daten äußern können, damit Sie proaktiv Schritte unternehmen können, um deren Auswirkungen abzuschwächen.
Berichterhebungsverzerrung
-
Definition
Ein Reporting Bias liegt vor, wenn die Häufigkeit von Ereignissen, Eigenschaften und/oder Ergebnissen in einem Dataset nicht ihre tatsächliche Häufigkeit widerspiegelt. Diese Voreingenommenheit kann entstehen, weil sich Menschen tendenziell auf die Dokumentation von ungewöhnlichen oder besonders einprägsamen Umständen konzentrieren, und zwar in der Annahme, dass das Gewöhnliche nicht aufgezeichnet werden muss.
-
Beispiel
Ein Sentimentanalysemodell wird darauf trainiert, anhand eines Korpus von Nutzerbeiträgen auf einer beliebten Website vorherzusagen, ob Buchrezensionen positiv oder negativ sind. Die meisten Rezensionen im Trainings-Dataset spiegeln extreme Meinungen wider (Rezensenten, die ein Buch entweder mochten oder gehasst haben), da die Wahrscheinlichkeit geringer ist, dass Nutzer eine Rezension für ein Buch abgeben, wenn sie nicht gut darauf reagierten. Das Modell kann daher die Meinung von Rezensionen, in denen ein Buch mit subtilerer Sprache beschrieben wird, weniger genau vorhersagen.
Klicken Sie auf chevron_left für die Definition.
Verzerrung durch bisherige Daten
-
Definition
Historische Verzerrungen treten auf, wenn historische Daten Ungleichheiten widerspiegeln, die es zu diesem Zeitpunkt in der Welt gab.
-
Beispiel
Ein Datensatz zu Wohnraum in einer Stadt aus den 1960er-Jahren enthält Daten zu Hauspreisen, die diskriminierende Kreditvergabepraktiken widerspiegeln, die in diesem Jahrzehnt in Kraft waren.
Klicken Sie auf chevron_left für die Definition.
Automatisierungsbias
-
Definition
Der Automatisierungsbias ist die Tendenz, unabhängig von Fehlerquoten automatisch generierte Ergebnisse gegenüber jenen zu bevorzugen, die nicht automatisch generiert wurden.
-
Beispiel
Die ML-Experten eines Kettenradherstellers wollten unbedingt das neue „bahnbrechende“ Modell zur Erkennung von Zahnfehlern einsetzen, das sie trainiert hatten. Der Betriebsleiter wies jedoch darauf hin, dass die Genauigkeit und Rückrufraten des Modells um 15% niedriger waren als die der menschlichen Prüfer.
Klicken Sie auf chevron_left für die Definition.
Auswahlverzerrung
Stichprobenverzerrung tritt auf, wenn die ausgewählten Beispiele eines Datasets nicht der tatsächlichen Verteilung der Daten entsprechen. Es gibt viele Arten des Stichprobenbias, wie zum Beispiel den Coverage Bias, den Nichterwiderungbias und den Stichprobenbias.
Coverage Bias
-
Definition
Abdeckungsverzerrung tritt auf, wenn Daten nicht repräsentativ ausgewählt werden.
-
Beispiel
Ein Modell wird trainiert, um zukünftige Verkäufe eines neuen Produkts anhand von Telefonumfragen mit einer Stichprobe von Verbrauchern vorherzusagen, die das Produkt gekauft haben. Verbraucher, die sich stattdessen für ein Konkurrenzprodukt entschieden haben, wurden nicht befragt. Daher war diese Gruppe in den Trainingsdaten nicht vertreten.
Klicken Sie auf chevron_left für die Definition.
Non-Response-Bias
-
Definition
Ein Non-Response-Verzerrungseffekt (auch als Teilnahmeverzerrung bezeichnet) tritt auf, wenn Daten aufgrund von Beteiligungslücken im Datenerfassungsprozess nicht repräsentativ sind.
-
Beispiel
Ein Modell wird trainiert, um den zukünftigen Verkauf eines neuen Produkts anhand von Telefonumfragen vorherzusagen. Diese werden mit einer Stichprobe von Nutzern, die das Produkt gekauft haben, und mit einer Stichprobe von Nutzern, die ein Konkurrenzprodukt gekauft haben, durchgeführt. Verbraucher, die das Konkurrenzprodukt gekauft hatten, lehnten die Umfrage mit 80% höherer Wahrscheinlichkeit ab und ihre Daten waren in der Stichprobe unterrepräsentiert.
Klicken Sie auf chevron_left für die Definition.
Sampling Bias
-
Definition
Stichprobenverzerrung tritt auf, wenn bei der Datenerhebung keine geeignete Randomisierung verwendet wird.
-
Beispiel
Ein Modell wird trainiert, um den zukünftigen Verkauf eines neuen Produkts anhand von Telefonumfragen vorherzusagen. Diese werden mit einer Stichprobe von Nutzern, die das Produkt gekauft haben, und mit einer Stichprobe von Nutzern, die ein Konkurrenzprodukt gekauft haben, durchgeführt. Anstatt die Umfrage nach dem Zufallsprinzip auf Verbraucher auszurichten, wählte der Umfrageteilnehmer die ersten 200 Nutzer aus, die auf eine E-Mail geantwortet haben und die sich möglicherweise eher für das Produkt begeistern als die Durchschnittskäufer.
Klicken Sie auf chevron_left für die Definition.
Gruppenattributionsbias
Der Gruppenattributionsbias ist die Tendenz, Merkmale von Einzelnen auf die gesamte Gruppe zu übertragen, der sie angehören. Der Gruppenattributionsbias äußert sich oft in den folgenden zwei Formen.
Gruppenintern
-
Definition
Der In-Group-Bias ist eine Präferenz für Mitglieder Ihrer eigenen Gruppe, zu der Sie auch selbst gehören, oder für Merkmale, die Sie gemeinsam haben.
-
Beispiel
Zwei ML-Experten, die ein Modell zum Überprüfen von Lebensläufen für Softwareentwickler trainieren, sind der Meinung, dass Bewerber, die dieselbe Informatikschule besucht haben wie sie selbst, besser für die Stelle geeignet sind.
Klicken Sie auf chevron_left für die Definition.
Gruppenextern (Homogenitätsbias)
-
Definition
Der Homogenitätsbias ist die Tendenz, einzelne Mitglieder einer Gruppe, zu der man nicht gehört, zu stereotypisieren oder ihre Eigenschaften als einheitlich zu betrachten.
-
Beispiel
Zwei ML-Experten, die ein Modell zur Lebenslaufprüfung für Softwareentwickler trainieren, sind der Meinung, dass alle Bewerber, die keine Informatikschule besucht haben, nicht über ausreichende Fachkenntnisse für die Stelle verfügen.
Klicken Sie auf chevron_left für die Definition.
Impliziter Bias
-
Definition
Implizite Voreingenommenheit tritt auf, wenn Annahmen auf der Grundlage des eigenen Denkmodells und persönlichen Erfahrungen getroffen werden, die nicht unbedingt allgemein gelten.
-
Beispiel
Ein ML-Experte, der ein Modell zur Gestenerkennung trainiert, verwendet ein Nicken als Merkmal, um anzugeben, dass eine Person das Wort „Nein“ kommuniziert. In einigen Regionen der Welt bedeutet ein Kopfschütteln jedoch "Ja".
Klicken Sie für die Definition auf chevron_left.
Bestätigungsfehler
-
Definition
Der Bestätigungsfehler tritt auf, wenn die Ersteller von Modellen Daten unbewusst so verarbeiten, dass vorgefasste Überzeugungen und Hypothesen bestätigt werden.
-
Beispiel
Ein ML-Experte erstellt ein Modell, mit dem die Aggressivität von Hunden anhand verschiedener Merkmale (Größe, Gewicht, Rasse, Umgebung) vorhergesagt wird. Die Fachkraft hatte als Kind eine unangenehme Begegnung mit einem hyperaktiven Toypudel und verbindet die Rasse seitdem mit Aggression. Bei der Zusammenstellung der Trainingsdaten des Modells hat der Praktiker unbewusst Merkmale verworfen, die auf die Gutmütigkeit kleinerer Hunde hinwiesen.
Klicken Sie auf chevron_left für die Definition.
Verzerrung durch Experimentator
-
Definition
Der Tester-Bias tritt auf, wenn ein Modellbauer ein Modell so lange trainiert, bis es ein Ergebnis liefert, das mit seiner ursprünglichen Hypothese übereinstimmt.
-
Beispiel
Ein ML-Experte erstellt ein Modell, das die Aggressivität von Hunden anhand einer Vielzahl von Merkmalen (Größe, Gewicht, Rasse, Umgebung) vorhersagt. Die Fachkraft hatte als Kind eine unangenehme Begegnung mit einem hyperaktiven Toypudel und verbindet die Rasse seitdem mit Aggression. Als das trainierte Modell vorhersagte, dass die meisten Zwergpudel relativ sanftmütig seien, trainierte der Arzt das Modell mehrmals, bis es ein Ergebnis zeigte, dass kleinere Pudel gewalttätiger sind.
Klicken Sie auf chevron_left für die Definition.