Equidad: Tipos de sesgo

Los modelos de aprendizaje automático (AA) no son objetivos de manera inherente. Los profesionales del AA entrenan modelos al proporcionarles un conjunto de datos con ejemplos de entrenamiento. La participación humana en el aprovisionamiento y la selección de estos datos puede hacer que las predicciones del modelo sean susceptibles al sesgo.

Cuando compilas modelos, es importante tener en cuenta los sesgos humanos comunes que pueden manifestarse en tus datos, para que puedas tomar medidas proactivas y mitigar sus efectos.

Sesgo de reporte

Sesgo histórico

Sesgo de automatización

Sesgo de selección

El sesgo de selección tiene lugar cuando los ejemplos de un conjunto de datos se eligen de un modo que no refleja su distribución en el mundo real. El sesgo de selección puede adoptar muchas formas diferentes, como el sesgo de cobertura, el sesgo de no respuesta y el sesgo de muestreo.

Sesgo de cobertura

Sesgo de no respuesta

Sesgo muestral

Sesgo de correspondencia

El sesgo de correspondencia es la tendencia a generalizar la realidad de los individuos para todo el grupo al que pertenecen. El sesgo de atribución grupal a menudo se manifiesta de las siguientes formas.

Sesgo endogrupal

Sesgo de homogeneidad de los demás

Sesgo implícito

Sesgo de confirmación

Sesgo del investigador

Ejercicio: Comprueba tus conocimientos

¿Cuáles de los siguientes tipos de sesgo podrían haber contribuido a las predicciones sesgadas en el modelo de admisiones a la universidad que se describe en la introducción?
Sesgo histórico
El modelo de admisión se entrenó con los registros de estudiantes de los últimos 20 años. Si los estudiantes de minorías estuvieran poco representados en estos datos, el modelo podría haber reproducido las mismas inequidades históricas cuando hiciera predicciones sobre datos de estudiantes nuevos.
Sesgo endogrupal
Los estudiantes universitarios actuales entrenaron el modelo de admisión, quienes podrían haber tenido una preferencia inconsciente por admitir estudiantes con antecedentes similares a los suyos, lo que podría haber afectado la forma en que seleccionaron o crearon las características de los datos en los que se entrenó el modelo.
Sesgo de confirmación
El modelo de admisión fue entrenado por estudiantes universitarios actuales, que probablemente tenían creencias preexistentes sobre qué tipos de calificaciones se correlacionan con el éxito en el programa de informática. Podrían haber seleccionado o creado atributos de los datos de forma inadvertida para que el modelo confirmara estas creencias existentes.
Sesgo de automatización
El sesgo de automatización podría explicar por qué el comité de admisiones eligió usar un modelo de AA para tomar decisiones sobre admisiones. Es posible que hayan creído que un sistema automatizado produciría mejores resultados que las decisiones de los seres humanos. Sin embargo, el sesgo de automatización no proporciona ninguna información sobre por qué las predicciones del modelo terminaron sesgadas.