Se usó la API de Cloud Translation para traducir esta página.

Equidad: Identificación del sesgo

A medida que preparas tus datos para el entrenamiento y la evaluación del modelo, es importante tener en cuenta los problemas de equidad y auditar las posibles fuentes de sesgo para que puedas mitigar sus efectos de forma proactiva antes de lanzar el modelo a producción.

¿Dónde podría aparecer el sesgo? A continuación, se incluyen algunos indicadores de advertencia que debes tener en cuenta en tu conjunto de datos.

Atributos con valores faltantes

Si tu conjunto de datos contiene una gran cantidad de ejemplos en los que uno o más atributos no tienen valores, esto podría indicar que algunas características clave de tu conjunto de datos están subrepresentadas.

Ejercicio: Comprueba tus conocimientos

Entrenas un modelo para predecir la adoptabilidad de perros de rescate en función de una variedad de características, como la raza, la edad, el peso, el temperamento y la cantidad de pelo que sueltan cada día. Tu objetivo es asegurarte de que el modelo tenga el mismo rendimiento en todos los tipos de perros, independientemente de sus características físicas o de comportamiento.

Descubres que a 1,500 de los 5,000 ejemplos del conjunto de entrenamiento les faltan valores de temperamento. ¿Cuáles de las siguientes son fuentes potenciales de sesgos que debes investigar?

Es más probable que falten datos de temperamento para ciertas razas de perros.

Si la disponibilidad de datos de temperamento se correlaciona con la raza del perro, esto podría generar predicciones de adoptabilidad menos precisas para ciertas razas de perros.

Es más probable que los datos de temperamento falten en los perros menores de 12 meses.

Si la disponibilidad de datos de temperamento se correlaciona con la edad, esto podría generar predicciones de adoptabilidad menos precisas para cachorros en comparación con perros adultos.

Faltan los datos de temperamento de todos los perros rescatados de las grandes ciudades.

A primera vista, podría no parecer que esta es una posible fuente de sesgo, ya que los datos faltantes afectarían a todos los perros de las grandes ciudades por igual, independientemente de su raza, edad, peso, etcétera. Sin embargo, aún debemos considerar que la ubicación de un perro podría servir como proxy para estas características físicas. Por ejemplo, si los perros de las grandes ciudades tienen una probabilidad mucho mayor de ser más pequeños que los perros de las áreas más rurales, eso podría generar predicciones de adoptabilidad menos precisas para los perros de menor peso o ciertas razas de perros pequeños.

Faltan datos de temperamento en el conjunto de datos de forma aleatoria.

Si los datos de temperamento realmente faltan de forma aleatoria, esa no sería una posible fuente de sesgo. Sin embargo, es posible que los datos del temperamento parezcan faltar de forma aleatoria, pero una investigación más detallada podría revelar una explicación para la discrepancia. Por lo tanto, es importante realizar una revisión exhaustiva para descartar otras posibilidades, en lugar de suponer que las brechas de datos son aleatorias.

Atributos con valores inesperados

Cuando exploras los datos, debes buscar también ejemplos que contengan atributos con valores que se destaquen por ser atípicos o inusuales. Estos valores de atributos inesperados podrían indicar problemas que ocurrieron durante la recopilación de datos, o bien otras imprecisiones que podrían generar sesgo.

Ejercicio: Comprueba tu comprensión

Revisa el siguiente conjunto hipotético de ejemplos para entrenar un modelo de adoptabilidad de perros de rescate.

raza	edad (años)	peso (lb)	temperamento	shedding_level
caniche miniatura	2	12	excitable	bajo
golden retriever	7	65	calmado	high
labrador retriever	35	73	calmado	high
bulldog francés	0.5	11	calmado	media
raza mixta desconocida	4	45	entusiasmo	high
Basset Hound	9	48	calmado	media

¿Puedes identificar algún problema con los datos de componentes?

Haz clic aquí para ver la respuesta

raza	edad (años)	peso (lb)	temperamento	shedding_level
caniche miniatura	2	12	excitable	bajo
golden retriever	7	65	calmado	high
labrador retriever	35	73	calmado	high
bulldog francés	0.5	11	calmado	media
raza mixta desconocida	4	45	entusiasmo	high
Basset Hound	9	48	calmado	media

El perro más longevo cuya edad verificó Guinness World Records fue Bluey, un pastor ganadero australiano que vivió 29 años y 5 meses. Teniendo en cuenta esto, parece bastante improbable que el labrador retriever tenga 35 años y es más probable que la edad del perro se haya calculado o registrado de forma imprecisa (tal vez tenga 3.5 años). Este error también podría indicar problemas de precisión más amplios con los datos de edad en el conjunto de datos que merecen una investigación más detallada.

Sesgo de datos

Cualquier tipo de sesgo en tus datos, en el que ciertos grupos o características puedan estar sub o sobrerrepresentados en relación con su prevalencia en el mundo real, puede introducir sesgos en tu modelo.

Cuando se audita el rendimiento del modelo, es importante no solo observar los resultados de forma agregada, sino también desglosarlos por subgrupo. Por ejemplo, en el caso de nuestro modelo de adoptabilidad de perros rescatados, para garantizar la equidad, no es suficiente con observar la precisión general. También debemos auditar el rendimiento por subgrupo para asegurarnos de que el modelo funcione igual de bien para cada raza, grupo de edad y grupo de tamaño de perro.

Más adelante en este módulo, en Cómo evaluar si hay sesgos, veremos con mayor detalle los diferentes métodos para evaluar modelos por subgrupo.

Tipos de sesgos (5 min)

Mitigación del sesgo (5 min)