Se usó la API de Cloud Translation para traducir esta página.

Equidad: Identificación del sesgo

Cuando preparas tus datos para el entrenamiento y la evaluación de modelos, es importante tener presentes los problemas de equidad y auditar las posibles fuentes de sesgo, para que puedas mitigar sus efectos de forma proactiva antes de lanzar el modelo a producción

¿Dónde podría aparecer el sesgo? Estas son algunas señales de alerta a las que debes prestar atención en tu conjunto de datos.

Atributos con valores faltantes

Si tu conjunto de datos tiene uno o más atributos a los que les faltan valores para una de ejemplos, lo que podría ser un indicador de que ciertas características clave de tu conjunto de datos están subrepresentados.

Ejercicio: Comprueba tus conocimientos

Entrenas un modelo para predecir la adopción de perros rescatados en una variedad de características, como raza, edad, peso, temperamento y la cantidad de cobertizos de piel cada día. Tu objetivo es asegurarte de que el modelo funciona igual de bien en todos los tipos de perros, independientemente de su o características de comportamiento

Descubres que 1,500 de los 5,000 ejemplos del conjunto de entrenamiento valores de temperamento faltantes. ¿Cuáles de las siguientes opciones son fuentes potenciales? de sesgos que deberías investigar?

Es más probable que los datos de temperamento falten para ciertas razas de perros.

Si la disponibilidad de datos de temperamento se correlaciona con la raza de perro, esto podría generar predicciones menos precisas de adopción ciertas razas de perros.

Es más probable que los datos sobre el temperamento falten en perros menores de 12 años. meses de edad

Si la disponibilidad de datos de temperamento se correlaciona con la edad, entonces esto podría generar predicciones menos precisas de adopción para cachorros versus perros adultos.

Faltan datos sobre el temperamento de todos los perros rescatados de las grandes ciudades.

Es posible que, a primera vista, no parezca que esta es una fuente potencial de sesgo, ya que los datos faltantes afectarían a todos los perros de grandes ciudades por igual, sin importar la raza, la edad, el peso, etcétera. Sin embargo, todavía debemos tener en cuenta que la ubicación a la que pertenece un perro podría servir eficazmente como proxy para estas amenazas físicas, del usuario. Por ejemplo, si los perros de las grandes ciudades son mucho más probable que sean más pequeños que los perros de zonas más rurales en áreas más complejas, lo que podría generar predicciones menos precisas para perros con bajo peso o determinadas razas de perros pequeños.

Faltan datos de temperamento en el conjunto de datos de forma aleatoria.

Si realmente faltan datos del temperamento al azar, entonces no podría ser una posible fuente de sesgo. Sin embargo, es posible que el temperamento puede que falten datos de forma aleatoria, pero una investigación más detallada podría revelar una explicación de la discrepancia. Por eso, es importante hacer una revisión exhaustiva para descartar otras posibilidades, en lugar de suponer que las brechas de datos son aleatorias.

Atributos con valores inesperados

Cuando exploras datos, también debes buscar ejemplos que contengan valores de atributos que sobresalen como poco características o inusuales. Estas funciones inesperadas pueden indicar problemas que ocurrieron durante la recopilación de datos u otras imprecisiones que podrían generar sesgo.

Ejercicio: Comprueba tus conocimientos

Revisa el siguiente conjunto hipotético de ejemplos para entrenar un perro rescatado de adopción del modelo.

raza	edad (años)	peso (lb)	temperamento	shedding_level
caniche toy	2	12	emocionante	baja
golden retriever	7	65	calmado	high
labrador retriever	35	73	calmado	high
bulldog francés	0.5	11	calmado	media
raza mixta desconocida	4	45	emocionante	high
basset hound	9	48	calmado	media

¿Puedes identificar algún problema con los datos de los atributos?

Haz clic aquí para ver la respuesta

raza	edad (años)	peso (lb)	temperamento	shedding_level
caniche toy	2	12	emocionante	baja
golden retriever	7	65	calmado	high
labrador retriever	35	73	calmado	high
bulldog francés	0.5	11	calmado	media
raza mixta desconocida	4	45	emocionante	high
basset hound	9	48	calmado	media

El perro más grande cuya edad se verificó en los Récords Guinness fue Bluey, un ganadero australiano que vivió 29 años y 5 meses. Dicho esto, parece bastante inútil que el labrador retriever tenga, en realidad, 35 años, y más probabilidades de que la edad del perro se haya calculado o registrado incorrectamente (quizás el perro en realidad tiene 3.5 años). Este error podría Esto también indica problemas de exactitud más amplios en los datos de edad del conjunto de datos. que ameritan una mayor investigación.

Sesgo de datos

Cualquier tipo de sesgo en tus datos, en el que determinados grupos o características subrepresentados o sobrerrepresentados en relación con su prevalencia en el mundo real pueden o ingresar sesgos en tu modelo.

Cuando audites el rendimiento del modelo, es importante no solo observar los resultados pero para desglosar los resultados por subgrupo. Por ejemplo, en el caso de nuestro modelo de adopción del perro rescatado, para garantizar la equidad, no es suficiente solo mira la exactitud general. También debemos auditar el rendimiento por subgrupo para asegurarse de que el modelo funcione igual de bien para cada raza, grupo etario y el tamaño del grupo de anuncios.

Más adelante en este módulo, en Evaluación de sesgo, echamos un vistazo más de cerca a los diferentes métodos para evaluar modelos por subgrupo.

Tipos de sesgos (5 min)

Mitigación del sesgo (5 min)