Glossar zum maschinellen Lernen: Fairness

Auf dieser Seite finden Sie Begriffe aus dem Glossar zu Fairness. Hier finden Sie alle Begriffe aus dem Glossar.

A

Attribut

#fairness

Synonym für Feature.

Bei der Fairness im maschinellen Lernen beziehen sich Attribute oft auf Merkmale, die sich auf Einzelpersonen beziehen.

Automatisierungsbias

#fairness

Wenn ein menschlicher Entscheidungsträger Empfehlungen eines automatisierten Entscheidungssystems gegenüber Informationen bevorzugt, die ohne Automatisierung erstellt wurden, auch wenn das automatisierte Entscheidungssystem Fehler macht.

Weitere Informationen finden Sie im Crashkurs zum maschinellen Lernen unter Fairness: Arten von Voreingenommenheit.

B

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Stereotypisierung, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erhebung und Interpretation von Daten, das Design eines Systems und die Interaktion der Nutzer mit einem System auswirken. Beispiele für diese Art von Verzerrung sind:

2. Systematischer Fehler, der durch Stichprobenerhebung oder Berichterstellung verursacht wird. Beispiele für diese Art von Verzerrung sind:

Nicht zu verwechseln mit dem Bias-Begriff in Machine-Learning-Modellen oder dem Vorhersagefehler.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

C

Bestätigungsfehler

#fairness

Die Tendenz, Informationen so zu suchen, zu interpretieren, zu bevorzugen und in Erinnerung zu rufen, dass bereits bestehende Überzeugungen oder Hypothesen bestätigt werden. Entwickler von Systemen für maschinelles Lernen können Daten versehentlich so erheben oder labeln, dass ein Ergebnis beeinflusst wird, das ihre bestehenden Überzeugungen unterstützt. Der Bestätigungsfehler ist eine Form von impliziter Voreingenommenheit.

Der Tester Bias ist eine Form der Bestätigungsverzerrung, bei der ein Tester Modelle so lange trainiert, bis eine vorgefasste Hypothese bestätigt wird.

Fairness unter kontrafaktischen Bedingungen

#fairness

Ein Fairness-Maß, mit dem geprüft wird, ob ein Klassifikator für eine Person dasselbe Ergebnis liefert wie für eine andere Person, die mit der ersten identisch ist, mit Ausnahme eines oder mehrerer sensibler Attribute. Die Bewertung eines Klassifikators auf kontrafaktische Fairness ist eine Methode, um potenzielle Quellen von Voreingenommenheit in einem Modell aufzudecken.

Weitere Informationen finden Sie unter den folgenden Links:

Abdeckungsverzerrung

#fairness

Weitere Informationen finden Sie unter Stichprobenfehler.

D

demografische Parität

#fairness

Ein Fairness-Messwert, der erfüllt ist, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.

Wenn sich beispielsweise sowohl Liliputaner als auch Brobdingnagier an der Glubbdubdrib University bewerben, ist die demografische Parität erreicht, wenn der Prozentsatz der aufgenommenen Liliputaner dem Prozentsatz der aufgenommenen Brobdingnagier entspricht, unabhängig davon, ob eine Gruppe im Durchschnitt besser qualifiziert ist als die andere.

Im Gegensatz dazu erlauben gleiche Chancen und Gleichbehandlung, dass Klassifizierungsergebnisse insgesamt von sensiblen Attributen abhängen, aber nicht, dass Klassifizierungsergebnisse für bestimmte Grundwahrheit-Labels von sensiblen Attributen abhängen. Im Artikel Diskriminierung durch intelligentes maschinelles Lernen finden Sie eine Visualisierung, in der die Kompromisse bei der Optimierung für die demografische Parität dargestellt werden.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: demografische Parität.

unterschiedliche Auswirkungen

#fairness

Entscheidungen über Personen treffen, die sich unverhältnismäßig auf verschiedene Bevölkerungsgruppen auswirken. In der Regel bezieht sich dies auf Situationen, in denen ein algorithmischer Entscheidungsprozess einigen Untergruppen mehr schadet oder mehr nutzt als anderen.

Angenommen, ein Algorithmus, der die Berechtigung eines Liliputaners für ein Minihausdarlehen ermittelt, stuft ihn mit höherer Wahrscheinlichkeit als „nicht berechtigt“ ein, wenn seine Postanschrift eine bestimmte Postleitzahl enthält. Wenn Big-Endian-Lilliputaner mit größerer Wahrscheinlichkeit Postadressen mit dieser Postleitzahl haben als Little-Endian-Lilliputaner, kann dieser Algorithmus zu unterschiedlichen Auswirkungen führen.

Im Gegensatz dazu geht es bei diskriminierender Behandlung um Unterschiede, die sich ergeben, wenn Merkmale von Untergruppen explizite Eingaben in einen algorithmischen Entscheidungsprozess sind.

unterschiedliche Behandlung

#fairness

Die sensiblen Attribute der Personen in einen algorithmischen Entscheidungsprozess einfließen lassen, sodass unterschiedliche Personengruppen unterschiedlich behandelt werden.

Angenommen, es gibt einen Algorithmus, der anhand der Daten in einem Kreditantrag die Berechtigung von Liliputanern für ein Minihaus ermittelt. Wenn der Algorithmus die Zugehörigkeit eines Liliputaners als Big-Endian- oder Little-Endian-Format als Eingabe verwendet, wird eine unterschiedliche Behandlung entlang dieser Dimension vorgenommen.

Im Gegensatz dazu geht es bei unterschiedlichen Auswirkungen um Unterschiede in den gesellschaftlichen Auswirkungen algorithmischer Entscheidungen auf Untergruppen, unabhängig davon, ob diese Untergruppen Eingaben in das Modell sind.

E

Chancengleichheit

#fairness

Ein Fairness-Messwert, mit dem bewertet wird, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensiblen Attributs gleich gut vorhersagt. Mit anderen Worten: Wenn das positive Ergebnis das gewünschte Ergebnis für ein Modell ist, sollte die Rate der echten positiven Ergebnisse für alle Gruppen gleich sein.

Chancengleichheit hängt mit ausgewogenen Chancen zusammen. Das bedeutet, dass sowohl die Rate der richtig positiven Ergebnisse als auch die Rate der falsch positiven Ergebnisse für alle Gruppen gleich sein müssen.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Liliputaner bieten ein umfangreiches Mathematikcurriculum an und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler qualifiziert. Die Chancengleichheit ist für das bevorzugte Label „Zugelassen“ in Bezug auf die Nationalität (Lilliputaner oder Brobdingnagier) gegeben, wenn qualifizierte Studierende unabhängig davon, ob sie Lilliputaner oder Brobdingnagier sind, mit gleicher Wahrscheinlichkeit zugelassen werden.

Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib University und die Zulassungsentscheidungen werden so getroffen:

Tabelle 1. Lilliputaner (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 3
Abgelehnt 45 7
Gesamt 90 10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler: 7/10 = 70%
Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 3)/100 = 48%

 

Tabelle 2 Brobdingnagian-Bewerber (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 9
Abgelehnt 5 81
Gesamt 10 90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Studenten: 81/90 = 90%
Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 9)/100 = 14%

In den vorangegangenen Beispielen wird die Chancengleichheit für die Zulassung qualifizierter Schüler und Studenten gewahrt, da sowohl qualifizierte Lilliputaner als auch Brobdingnagier eine 50-prozentige Chance auf Zulassung haben.

Die Chancengleichheit ist zwar gegeben, die folgenden beiden Fairnessmesswerte sind jedoch nicht erfüllt:

  • Demografische Parität: Lilliputaner und Brobdingnagier werden in unterschiedlichem Maße an der Universität zugelassen. 48% der Lilliputaner werden zugelassen, aber nur 14% der Brobdingnagier.
  • Gleiche Chancen: Qualifizierte Lilliputaner und Brobdingnagier haben zwar die gleiche Chance, aufgenommen zu werden, aber die zusätzliche Einschränkung, dass unqualifizierte Lilliputaner und Brobdingnagier die gleiche Chance haben, abgelehnt zu werden, ist nicht erfüllt. Ungeeignete Liliputaner haben eine Ablehnungsrate von 70 %, während ungeeignete Brobdingnagier eine Ablehnungsrate von 90% haben.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Chancengleichheit.

ausgeglichene Chancen

#fairness

Ein Fairness-Messwert, mit dem beurteilt wird, ob ein Modell Ergebnisse für alle Werte eines sensiblen Attributs sowohl für die positive Klasse als auch für die negative Klasse gleich gut vorhersagt – nicht nur für eine oder die andere Klasse. Mit anderen Worten: Sowohl die Richtig-Positiv-Rate als auch die Falsch-Negativ-Rate sollten für alle Gruppen gleich sein.

Die Chancengleichheit ist mit der Chancengleichheit verwandt, bei der sich nur auf die Fehlerraten für eine einzelne Klasse (positiv oder negativ) konzentriert wird.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Lilliputaner bieten ein umfangreiches Mathematikcurriculum und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. In den weiterführenden Schulen von Brobdingnag werden keine Mathematikkurse angeboten. Daher sind viel weniger Schüler und Studenten qualifiziert. Die Chancengleichheit ist gegeben, wenn unabhängig davon, ob ein Bewerber ein Liliputaner oder ein Riese ist, seine Chancen, in das Programm aufgenommen zu werden, gleich hoch sind, wenn er qualifiziert ist, und seine Chancen, abgelehnt zu werden, gleich hoch sind, wenn er nicht qualifiziert ist.

Angenommen, 100 Lilliputaner und 100 Brobdingnagier bewerben sich an der Glubbdubdrib-Universität und die Zulassungsentscheidungen werden so getroffen:

Tabelle 3 Lilliputaner (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 2
Abgelehnt 45 8
Gesamt 90 10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Schüler: 8/10 = 80%
Gesamtprozentsatz der zugelassenen Schüler aus Liliput: (45 + 2)/100 = 47%

 

Tabelle 4 Brobdingnagian-Bewerber (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 18
Abgelehnt 5 72
Gesamt 10 90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50%
Prozentsatz der abgelehnten nicht qualifizierten Studenten: 72/90 = 80%
Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 18)/100 = 23%

Die Chancen sind ausgeglichen, da qualifizierte Lilliputaner und Brobdingnagische Studenten jeweils eine 50-prozentige Chance haben, zugelassen zu werden, und unqualifizierte Lilliputaner und Brobdingnagische Studenten eine 80-prozentige Chance haben, abgelehnt zu werden.

Der Begriff „gleiche Chancen“ wird in „Gleichbehandlung bei der Chancengerechtigkeit im Supervised Learning“ wie folgt definiert: „Der Prädiktor Ŷ erfüllt die Gleichbehandlung der Chancen in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A bedingt auf Y unabhängig sind.“

Experimentatoreffekt

#fairness

Bestätigungsfehler

F

Fairness-Einschränkung

#fairness
Eine Einschränkung auf einen Algorithmus anwenden, um sicherzustellen, dass eine oder mehrere Definitionen von Fairness erfüllt werden. Beispiele für Fairnesseinschränkungen:

Fairnessmesswert

#fairness

Eine mathematische Definition von „Fairness“, die messbar ist. Zu den gängigen Fairnessmesswerten gehören:

Viele Fairnessmesswerte schließen sich gegenseitig aus. Weitere Informationen finden Sie unter Inkompatibilität von Fairnessmesswerten.

G

Gruppenattributionsbias

#fairness

Die Annahme, dass das, was für eine Person gilt, auch für alle anderen in dieser Gruppe gilt. Die Auswirkungen der Verzerrung durch die Gruppenzuordnung können verstärkt werden, wenn für die Datenerhebung eine Stichprobe aus Bequemlichkeit verwendet wird. Bei einer nicht repräsentativen Stichprobe können Zuordnungen vorgenommen werden, die nicht der Realität entsprechen.

Weitere Informationen finden Sie unter Homogenitätsbias außerhalb der Gruppe und Gruppenvoreingenommenheit. Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

H

Voreingenommenheit aufgrund der Vergangenheit

#fairness

Eine Art von Voreingenommenheit, die bereits in der Welt vorhanden ist und in einen Datensatz gelangt ist. Diese Verzerrungen spiegeln häufig bestehende kulturelle Stereotype, demografische Ungleichheiten und Vorurteile gegenüber bestimmten sozialen Gruppen wider.

Angenommen, Sie haben ein Klassifizierungsmodell, das vorhersagt, ob ein Kreditnehmer seinen Kredit in Verzug bringen wird. Dieses Modell wurde anhand von Verlaufsdaten zu Kreditausfällen aus den 1980er-Jahren von lokalen Banken in zwei verschiedenen Gemeinden trainiert. Wenn in der Vergangenheit in der Gemeinde A sechsmal häufiger Kredite fällig wurden als in der Gemeinde B, kann das Modell eine Voreingenommenheit lernen, die dazu führt, dass in der Gemeinde A seltener Kredite genehmigt werden, auch wenn die historischen Bedingungen, die zu den höheren Ausfallraten in dieser Gemeinde geführt haben, nicht mehr relevant sind.

Weitere Informationen finden Sie im Crashkurs zum maschinellen Lernen unter Fairness: Arten von Voreingenommenheit.

I

Impliziter Bias

#fairness

Automatische Verknüpfung oder Annahme auf der Grundlage von Denkmodellen und Erinnerungen. Implizite Voreingenommenheit kann sich auf Folgendes auswirken:

  • Wie Daten erhoben und klassifiziert werden.
  • Wie Systeme für maschinelles Lernen entworfen und entwickelt werden.

Wenn ein Entwickler beispielsweise einen Klassifikator zum Identifizieren von Hochzeitsfotos erstellt, kann er das Vorhandensein eines weißen Kleids auf einem Foto als Merkmal verwenden. Weiße Kleider waren jedoch nur in bestimmten Epochen und in bestimmten Kulturen üblich.

Siehe auch Bestätigungsfehler.

Inkompatibilität von Fairnessmesswerten

#fairness

Die Vorstellung, dass einige Vorstellungen von Fairness sich gegenseitig ausschließen und nicht gleichzeitig erfüllt werden können. Daher gibt es keinen einzigen universellen Messwert zur Quantifizierung von Fairness, der auf alle ML-Probleme angewendet werden kann.

Das mag entmutigend erscheinen, aber die Inkompatibilität von Fairnessmesswerten bedeutet nicht, dass Bemühungen um Fairness vergeblich sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu vermeiden, die für die Anwendungsfälle spezifisch sind.

Weitere Informationen zu diesem Thema finden Sie unter „On the (im)possibility of fairness“ (Zur (Un)Möglichkeit von Fairness).

Fairness für Einzelpersonen

#fairness

Ein Fairness-Messwert, der prüft, ob ähnliche Personen ähnlich klassifiziert werden. Die Brobdingnagian Academy möchte beispielsweise für individuelle Fairness sorgen, indem sie dafür sorgt, dass zwei Schüler mit identischen Noten und standardisierten Testergebnissen mit gleicher Wahrscheinlichkeit eine Zulassung erhalten.

Die individuelle Fairness hängt vollständig davon ab, wie Sie „Ähnlichkeit“ definieren (in diesem Fall Noten und Testergebnisse). Wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. den Grad der Strenge des Lehrplans eines Schülers) nicht berücksichtigt, besteht die Gefahr, dass neue Fairnessprobleme auftreten.

Eine ausführlichere Erläuterung der individuellen Fairness finden Sie unter Fairness durch Bewusstsein.

In-Group-Effekt

#fairness

Die eigene Gruppe oder eigene Merkmale zu bevorzugen. Wenn die Tester oder Bewerter aus Freunden, Familienmitgliedern oder Kollegen des Entwicklers für maschinelles Lernen bestehen, kann die Gruppenvoreingenommenheit die Produkttests oder den Datensatz ungültig machen.

Der In-Group-Bias ist eine Form des Gruppenattributionsbias. Siehe auch Homogenitätsbias außerhalb der Gruppe.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

N

Non-Response-Bias

#fairness

Weitere Informationen finden Sie unter Stichprobenfehler.

O

Homogenitätsbias außerhalb der Gruppe

#fairness

Die Tendenz, Mitglieder einer Außengruppe bei Vergleichen von Einstellungen, Werten, Persönlichkeitsmerkmalen und anderen Merkmalen als ähnlicher zu betrachten als Mitglieder der eigenen Gruppe. In-Group bezieht sich auf Personen, mit denen Sie regelmäßig interagieren. Out-Group bezieht sich auf Personen, mit denen Sie nicht regelmäßig interagieren. Wenn Sie einen Datensatz erstellen, indem Sie Personen bitten, Attribute zu Außengruppen anzugeben, sind diese Attribute möglicherweise weniger differenziert und stereotypischer als Attribute, die Teilnehmer für Personen in ihrer eigenen Gruppe auflisten.

Lilliputaner könnten beispielsweise die Häuser anderer Lilliputaner sehr detailliert beschreiben und dabei kleine Unterschiede in Architekturstilen, Fenstern, Türen und Größen angeben. Dieselben Liliputaner könnten jedoch einfach erklären, dass alle Brobdingnagier in identischen Häusern leben.

Der Homogenitätsbias außerhalb der Gruppe ist eine Form des Gruppenattributionsbias.

Weitere Informationen finden Sie unter In-Group-Bias.

P

Teilnahmeeffekt

#fairness

Synonym für Non-Response-Bias. Weitere Informationen finden Sie unter Stichprobenfehler.

Nachbearbeitung

#fairness
#fundamentals

Die Ausgabe eines Modells nach der Ausführung anpassen. Mit der Nachbearbeitung können Fairness-Einschränkungen erzwungen werden, ohne die Modelle selbst zu ändern.

So kann beispielsweise eine Nachbearbeitung auf einen binären Klassifikator angewendet werden, indem ein Klassifizierungsgrenzwert festgelegt wird, der für ein bestimmtes Attribut die Gleichbehandlung aufrechterhält. Dazu wird geprüft, ob die Rate der wahren positiven Ergebnisse für alle Werte dieses Attributs gleich ist.

Prognoseparität

#fairness

Ein Fairness-Messwert, mit dem geprüft wird, ob die Genauigkeitsraten für einen bestimmten Klassifikator für die betrachteten Untergruppen gleich sind.

Ein Modell, das die Zulassung an einer Hochschule vorhersagt, erfüllt beispielsweise die Vorhersageparität für die Nationalität, wenn die Präzision für Lilliputaner und Brobdingnagier gleich ist.

Die Prognoseparität wird manchmal auch als Prognosepreisparität bezeichnet.

Eine ausführlichere Erläuterung der Vorhersageparität finden Sie unter Definitionen von Fairness (Abschnitt 3.2.1).

Prognosebasierte Preisparität

#fairness

Ein anderer Name für vorhersagende Parität.

Vorverarbeitung

#fairness
Daten werden verarbeitet, bevor sie zum Trainieren eines Modells verwendet werden. Die Vorverarbeitung kann so einfach sein wie das Entfernen von Wörtern aus einem englischen Textkorpus, die nicht im englischen Wörterbuch vorkommen, oder so komplex wie die Neuformulierung von Datenpunkten, um so viele Attribute wie möglich zu entfernen, die mit sensiblen Attributen korrelieren. Die Vorverarbeitung kann dazu beitragen, Fairnessvorgaben zu erfüllen.

Proxy (sensible Attribute)

#fairness
Ein Attribut, das als Ersatz für ein sensibles Attribut verwendet wird. So kann beispielsweise die Postleitzahl einer Person als Proxy für ihr Einkommen, ihre ethnische Zugehörigkeit oder ihre ethnische Herkunft verwendet werden.

R

Berichterhebungsverzerrung

#fairness

Die Tatsache, dass die Häufigkeit, mit der Menschen über Handlungen, Ergebnisse oder Eigenschaften schreiben, nicht ihre tatsächliche Häufigkeit widerspiegelt oder den Grad, in dem eine Eigenschaft für eine Gruppe von Personen charakteristisch ist. Verzerrungen bei der Berichterstellung können die Zusammensetzung der Daten beeinflussen, aus denen Systeme für maschinelles Lernen lernen.

In Büchern ist beispielsweise das Wort lachte häufiger zu finden als atmete. Ein Modell für maschinelles Lernen, das die relative Häufigkeit von Lachen und Atmen anhand eines Buchkorpus schätzt, würde wahrscheinlich feststellen, dass Lachen häufiger vorkommt als Atmen.

S

Stichprobenverzerrung

#fairness

Weitere Informationen finden Sie unter Stichprobenfehler.

Auswahlverzerrung

#fairness

Fehler bei Schlussfolgerungen aus Stichprobendaten aufgrund eines Auswahlprozesses, der systematische Unterschiede zwischen in den Daten beobachteten und nicht beobachteten Stichproben erzeugt. Es gibt die folgenden Arten von Auswahlverzerrung:

  • Abdeckungsverzerrung: Die im Datensatz dargestellte Population stimmt nicht mit der Population überein, für die das maschinelle Lernmodell Vorhersagen trifft.
  • Stichprobenverzerrung: Die Daten werden nicht zufällig aus der Zielgruppe erhoben.
  • Nichtteilnahme-Bias (auch Teilnahme-Bias genannt): Nutzer bestimmter Gruppen nehmen in unterschiedlicher Häufigkeit an Umfragen teil als Nutzer anderer Gruppen.

Angenommen, Sie erstellen ein Machine-Learning-Modell, das vorhersagt, ob ein Film den Zuschauern gefallen wird. Um Trainingsdaten zu erheben, geben Sie allen Zuschauern in der ersten Reihe eines Kinos, in dem der Film gezeigt wird, einen Fragebogen aus. Auf den ersten Blick mag das wie eine vernünftige Methode zur Erhebung eines Datensatzes klingen. Diese Form der Datenerhebung kann jedoch zu den folgenden Formen von Auswahlverzerrung führen:

  • Abdeckungsverzerrung: Wenn Sie eine Stichprobe aus einer Population ziehen, die sich für den Film entschieden hat, lassen sich die Vorhersagen Ihres Modells möglicherweise nicht auf Personen übertragen, die sich nicht schon so sehr für den Film interessiert haben.
  • Stichprobenverzerrung: Anstatt eine zufällige Stichprobe aus der beabsichtigten Population (alle Kinobesucher) zu ziehen, haben Sie nur die Personen in der ersten Reihe befragt. Es ist möglich, dass die Leute in der ersten Reihe mehr am Film interessiert waren als die in anderen Reihen.
  • Nichterwiderung: Im Allgemeinen nehmen Personen mit ausgeprägten Meinungen häufiger an optionalen Umfragen teil als Personen mit weniger ausgeprägten Meinungen. Da die Filmumfrage optional ist, bilden die Antworten mit größerer Wahrscheinlichkeit eine bimodale Verteilung als eine normale (glockenförmige) Verteilung.

sensible Attribute

#fairness
Eine menschliche Eigenschaft, die aus rechtlichen, ethischen, sozialen oder persönlichen Gründen besonders berücksichtigt wird.

U

Unwissenheit (über ein sensibles Attribut)

#fairness

Eine Situation, in der sensible Attribute vorhanden, aber nicht in den Trainingsdaten enthalten sind. Da sensible Attribute oft mit anderen Attributen der Daten korrelieren, kann ein Modell, das ohne Kenntnis eines sensiblen Attributs trainiert wurde, dennoch unterschiedliche Auswirkungen auf dieses Attribut haben oder gegen andere Fairness-Einschränkungen verstoßen.