Sobald eine Quelle von Voreingenommenheit in den Trainingsdaten identifiziert wurde, können wir proaktive Maßnahmen ergreifen, um ihre Auswirkungen zu verringern. Es gibt zwei Hauptstrategien, die Entwickler von maschinellem Lernen (ML) in der Regel anwenden, um Voreingenommenheit zu beheben:
- Trainingsdaten ergänzen
- Passen Sie die Verlustfunktion des Modells an.
Trainingsdaten ergänzen
Wenn bei einer Prüfung der Trainingsdaten Probleme mit fehlenden, falschen oder verzerrten Daten festgestellt wurden, ist die einfachste Lösung häufig die Erhebung zusätzlicher Daten.
Das Ergänzen der Trainingsdaten kann zwar ideal sein, aber der Nachteil dieses Ansatzes ist, dass er auch nicht realisierbar sein kann, entweder aufgrund fehlender verfügbarer Daten oder Ressourceneinschränkungen, die die Datenerhebung beeinträchtigen. So kann es beispielsweise sein, dass die Erhebung weiterer Daten zu teuer oder zeitaufwendig ist oder aufgrund von rechtlichen oder datenschutzrechtlichen Einschränkungen nicht möglich ist.
Optimierungsfunktion des Modells anpassen
Wenn das Erfassen zusätzlicher Trainingsdaten nicht möglich ist, können Sie die Berechnung des Verlusts beim Modelltraining anpassen, um Verzerrungen zu verringern. Normalerweise verwenden wir eine Optimierungsfunktion wie den Logarithmus-Verlust, um falsche Modellvorhersagen zu bestrafen. Bei der Log-Verlust-Methode wird die Zugehörigkeit zu Untergruppen jedoch nicht berücksichtigt. Anstatt also den Logverlust zu verwenden, können wir eine Optimierungsfunktion auswählen, die faires Denken für Fehler benachteiligt und den Ungleichgewichten aus unseren Trainingsdaten entgegenwirkt.
Die TensorFlow Model Remediation Library bietet Dienstprogramme zum Anwenden von zwei verschiedenen Techniken zur Quellenverzerrung während des Modelltrainings:
MinDiff: MinDiff zielt darauf ab, die Fehler für zwei verschiedene Datensegmente (männliche/weibliche Studenten und nicht binäre Studenten) auszugleichen. Dazu addiert eine Strafe für Unterschiede in den Vorhersageverteilungen für die beiden Gruppen.
Counterfactual Logit Pairing: Mit Counterfactual Logit Pairing (CLP) soll sichergestellt werden, dass sich durch die Änderung eines sensiblen Attributs eines bestimmten Beispiels die Vorhersage des Modells für dieses Beispiel nicht ändert. Wenn ein Trainings-Dataset beispielsweise zwei Beispiele enthält, deren Featurewerte identisch sind, mit der Ausnahme, dass eines den
gender
-Wertmale
und das andere dengender
-Wertnonbinary
hat, fügt CLP einen Strafwert hinzu, wenn die Vorhersagen für diese beiden Beispiele unterschiedlich sind.
Welche Methoden Sie zur Anpassung der Optimierungsfunktion auswählen, hängt von den Anwendungsfällen des Modells ab. Im nächsten Abschnitt sehen wir uns genauer an, wie Sie anhand dieser Anwendungsfälle ein Modell auf Fairness prüfen können.