Fairness: Minderung von Verzerrungen

Sobald eine Quelle von Voreingenommenheit in den Trainingsdaten identifiziert wurde, können wir proaktive Maßnahmen ergreifen, um ihre Auswirkungen zu verringern. Es gibt zwei Hauptstrategien, die Entwickler von maschinellem Lernen (ML) in der Regel anwenden, um Voreingenommenheit zu beheben:

  • Trainingsdaten ergänzen
  • Passen Sie die Verlustfunktion des Modells an.

Trainingsdaten ergänzen

Wenn bei einer Prüfung der Trainingsdaten Probleme mit fehlenden, falschen oder verzerrten Daten festgestellt wurden, ist die einfachste Lösung häufig die Erhebung zusätzlicher Daten.

Das Ergänzen der Trainingsdaten kann zwar ideal sein, aber der Nachteil dieses Ansatzes ist, dass er auch nicht realisierbar sein kann, entweder aufgrund fehlender verfügbarer Daten oder Ressourceneinschränkungen, die die Datenerhebung beeinträchtigen. So kann es beispielsweise sein, dass die Erhebung weiterer Daten zu teuer oder zeitaufwendig ist oder aufgrund von rechtlichen oder datenschutzrechtlichen Einschränkungen nicht möglich ist.

Optimierungsfunktion des Modells anpassen

Wenn das Erfassen zusätzlicher Trainingsdaten nicht möglich ist, können Sie die Berechnung des Verlusts beim Modelltraining anpassen, um Verzerrungen zu verringern. Normalerweise verwenden wir eine Optimierungsfunktion wie den Logarithmus-Verlust, um falsche Modellvorhersagen zu bestrafen. Bei der Log-Verlust-Methode wird die Zugehörigkeit zu Untergruppen jedoch nicht berücksichtigt. Anstatt also den Logverlust zu verwenden, können wir eine Optimierungsfunktion auswählen, die faires Denken für Fehler benachteiligt und den Ungleichgewichten aus unseren Trainingsdaten entgegenwirkt.

Die TensorFlow Model Remediation Library bietet Dienstprogramme zum Anwenden von zwei verschiedenen Techniken zur Quellenverzerrung während des Modelltrainings:

  • MinDiff: MinDiff zielt darauf ab, die Fehler für zwei verschiedene Datensegmente (männliche/weibliche Studenten und nicht binäre Studenten) auszugleichen. Dazu addiert eine Strafe für Unterschiede in den Vorhersageverteilungen für die beiden Gruppen.

  • Counterfactual Logit Pairing: Mit Counterfactual Logit Pairing (CLP) soll sichergestellt werden, dass sich durch die Änderung eines sensiblen Attributs eines bestimmten Beispiels die Vorhersage des Modells für dieses Beispiel nicht ändert. Wenn ein Trainings-Dataset beispielsweise zwei Beispiele enthält, deren Featurewerte identisch sind, mit der Ausnahme, dass eines den gender-Wert male und das andere den gender-Wert nonbinary hat, fügt CLP einen Strafwert hinzu, wenn die Vorhersagen für diese beiden Beispiele unterschiedlich sind.

Welche Methoden Sie zur Anpassung der Optimierungsfunktion auswählen, hängt von den Anwendungsfällen des Modells ab. Im nächsten Abschnitt sehen wir uns genauer an, wie Sie anhand dieser Anwendungsfälle ein Modell auf Fairness prüfen können.

Übung: Wissen testen

Welche der folgenden Aussagen zu Techniken zur Verringerung von Voreingenommenheit sind wahr?
Sowohl MinDiff als auch CLP bestrafen Abweichungen bei der Modellleistung, die mit sensiblen Attributen zusammenhängen.
Beide Verfahren zielen darauf ab, Bias zu reduzieren, indem Vorhersagefehler, die auf Ungleichgewichten bei der Darstellung sensibler Attribute in Trainingsdaten zurückzuführen sind, bestraft werden.
MinDiff bestraft Unterschiede in der Gesamtverteilung von Vorhersagen für verschiedene Datensegmente, während CLP Abweichungen in Vorhersagen für einzelne Beispielpaare bestraft.
MinDiff behebt Voreingenommenheit, indem die Bewertungsverteilungen für zwei Untergruppen angeglichen werden. Mithilfe von CLP wird dafür gesorgt, dass einzelne Beispiele nicht nur aufgrund ihrer Zugehörigkeit zu einer Untergruppe anders behandelt werden.
Wenn Sie dem Trainings-Dataset weitere Beispiele hinzufügen, können Sie Verzerrungen in den Vorhersagen eines Modells entgegenwirken.
Das Hinzufügen weiterer Trainingsbeispiele ist eine effektive Strategie zur Verringerung von Voreingenommenheit. Die Zusammensetzung der neuen Trainingsdaten ist jedoch wichtig. Wenn die zusätzlichen Trainingsbeispiele ähnliche Ungleichgewichte wie die ursprünglichen Daten aufweisen, tragen sie wahrscheinlich nicht dazu bei, die bestehende Voreingenommenheit zu verringern.
Wenn Sie Verzerrungen durch Hinzufügen weiterer Trainingsdaten verringern, sollten Sie während des Trainings weder MinDiff noch CLP anwenden.
Die Erweiterung von Trainingsdaten und die Anwendung von Verfahren wie MinDiff oder CLP können sich ergänzen. Ein ML-Entwickler kann beispielsweise genügend zusätzliche Trainingsdaten erfassen, um eine Leistungsabweichung um 30 % zu reduzieren, und dann MinDiff verwenden, um die Abweichung um weitere 50 % zu verringern.