Una vez que esto se convierte en fuente de sesgo se identificó en los datos de entrenamiento, podemos tomar medidas proactivas para mitigar sus efectos. Existen dos estrategias principales en las que el aprendizaje automático (AA) que los ingenieros suelen emplear para corregir el sesgo:
- Aumentar los datos de entrenamiento
- Ajustar la función de pérdida del modelo
Aumento de los datos de entrenamiento
Si en una auditoría de los datos de entrenamiento se identificaron problemas de errores faltantes, o datos sesgados, la forma más directa de abordar el problema suele ser para recopilar datos adicionales.
Sin embargo, si bien aumentar los datos de entrenamiento puede ser ideal, este enfoque es que también puede ser inviable, ya sea debido a la falta de las restricciones de datos o recursos disponibles que impiden su recopilación. Por ejemplo: recopilar más datos podría ser demasiado costoso, llevar mucho tiempo o podría no ser viable debido a restricciones legales o de privacidad.
Ajusta la función de optimización del modelo
En los casos en que no sea viable recopilar más datos de entrenamiento, para mitigar el sesgo es ajustar la forma en que se calcula la pérdida durante capacitación. Por lo general, usamos una función de optimización, como pérdida logística para penalizar el modelo incorrecto predicciones. Sin embargo, la pérdida logística no incluye la pertenencia a un subgrupo consideración. Así que en lugar de usar pérdida logística, podemos elegir una optimización función diseñada para penalizar errores de una manera consciente de la equidad que para contrarrestar los desequilibrios que identificamos en los datos de entrenamiento.
La biblioteca TensorFlow Model Remediation proporciona utilidades para aplicar dos Diferentes técnicas de mitigación de sesgos durante el entrenamiento del modelo:
MinDiff: MinDiff tiene como objetivo equilibrar los errores de dos porciones de datos diferentes (estudiantes hombres/mujeres versus estudiantes no binarios) agregando una penalización por diferencias en las distribuciones de predicción de los dos grupos.
Vinculación contrafáctica de logits: La sincronización contrafáctica de logit (CLP) tiene como objetivo garantizar que el cambio atributo de un ejemplo dado no altera la predicción del modelo para ese ejemplo. Por ejemplo, si un conjunto de datos de entrenamiento contiene dos ejemplos cuyo los valores del atributo son idénticos, excepto que uno tiene un valor
gender
demale
y el otro tiene un valor degender
denonbinary
, CLP agregará una penalización si las predicciones para estos dos ejemplos son diferentes.
Las técnicas que eliges para ajustar la función de optimización son depende de los casos de uso del modelo. En la próxima sección, un análisis más detallado de cómo abordar la tarea de evaluar la equidad de un modelo considerando estos casos de uso.