Equidad: Identificación del sesgo

A medida que preparas tus datos para el entrenamiento y la evaluación del modelo, es importante tener en cuenta los problemas de equidad y auditar las posibles fuentes de sesgo para que puedas mitigar sus efectos de forma proactiva antes de lanzar el modelo a producción.

¿Dónde podría aparecer el sesgo? A continuación, se incluyen algunos indicadores de advertencia que debes tener en cuenta en tu conjunto de datos.

Atributos con valores faltantes

Si tu conjunto de datos contiene una gran cantidad de ejemplos en los que uno o más atributos no tienen valores, esto podría indicar que algunas características clave de tu conjunto de datos están subrepresentadas.

Ejercicio: Comprueba tus conocimientos

Entrenas un modelo para predecir la adoptabilidad de perros de rescate en función de una variedad de características, como la raza, la edad, el peso, el temperamento y la cantidad de pelo que sueltan cada día. Tu objetivo es asegurarte de que el modelo tenga el mismo rendimiento en todos los tipos de perros, independientemente de sus características físicas o de comportamiento.

Descubres que a 1,500 de los 5,000 ejemplos del conjunto de entrenamiento les faltan valores de temperamento. ¿Cuáles de las siguientes son fuentes potenciales de sesgos que debes investigar?

Es más probable que falten datos de temperamento para ciertas razas de perros.
Si la disponibilidad de datos de temperamento se correlaciona con la raza del perro, esto podría generar predicciones de adoptabilidad menos precisas para ciertas razas de perros.
Es más probable que los datos de temperamento falten en los perros menores de 12 meses.
Si la disponibilidad de datos de temperamento se correlaciona con la edad, esto podría generar predicciones de adoptabilidad menos precisas para cachorros en comparación con perros adultos.
Faltan los datos de temperamento de todos los perros rescatados de las grandes ciudades.
A primera vista, podría no parecer que esta es una posible fuente de sesgo, ya que los datos faltantes afectarían a todos los perros de las grandes ciudades por igual, independientemente de su raza, edad, peso, etcétera. Sin embargo, aún debemos considerar que la ubicación de un perro podría servir como proxy para estas características físicas. Por ejemplo, si los perros de las grandes ciudades tienen una probabilidad mucho mayor de ser más pequeños que los perros de las áreas más rurales, eso podría generar predicciones de adoptabilidad menos precisas para los perros de menor peso o ciertas razas de perros pequeños.
Faltan datos de temperamento en el conjunto de datos de forma aleatoria.
Si los datos de temperamento realmente faltan de forma aleatoria, esa no sería una posible fuente de sesgo. Sin embargo, es posible que los datos del temperamento parezcan faltar de forma aleatoria, pero una investigación más detallada podría revelar una explicación para la discrepancia. Por lo tanto, es importante realizar una revisión exhaustiva para descartar otras posibilidades, en lugar de suponer que las brechas de datos son aleatorias.

Atributos con valores inesperados

Cuando exploras los datos, debes buscar también ejemplos que contengan atributos con valores que se destaquen por ser atípicos o inusuales. Estos valores de atributos inesperados podrían indicar problemas que ocurrieron durante la recopilación de datos, o bien otras imprecisiones que podrían generar sesgo.

Ejercicio: Comprueba tu comprensión

Revisa el siguiente conjunto hipotético de ejemplos para entrenar un modelo de adoptabilidad de perros de rescate.

raza edad (años) peso (lb) temperamento shedding_level
caniche miniatura 2 12 excitable bajo
golden retriever 7 65 calmado high
labrador retriever 35 73 calmado high
bulldog francés 0.5 11 calmado media
raza mixta desconocida 4 45 entusiasmo high
Basset Hound 9 48 calmado media
¿Puedes identificar algún problema con los datos de componentes?
Haz clic aquí para ver la respuesta

Sesgo de datos

Cualquier tipo de sesgo en tus datos, en el que ciertos grupos o características puedan estar sub o sobrerrepresentados en relación con su prevalencia en el mundo real, puede introducir sesgos en tu modelo.

Cuando se audita el rendimiento del modelo, es importante no solo observar los resultados de forma agregada, sino también desglosarlos por subgrupo. Por ejemplo, en el caso de nuestro modelo de adoptabilidad de perros rescatados, para garantizar la equidad, no es suficiente con observar la precisión general. También debemos auditar el rendimiento por subgrupo para asegurarnos de que el modelo funcione igual de bien para cada raza, grupo de edad y grupo de tamaño de perro.

Más adelante en este módulo, en Cómo evaluar si hay sesgos, veremos con mayor detalle los diferentes métodos para evaluar modelos por subgrupo.