Equidad: Identificación del sesgo

A medida que preparas tus datos para el entrenamiento y la evaluación del modelo, es importante tener en cuenta los problemas de equidad y auditar las posibles fuentes de sesgo para que puedas mitigar sus efectos de forma proactiva antes de lanzar el modelo a producción.

¿Dónde podría aparecer el sesgo? A continuación, se incluyen algunos indicadores de advertencia que debes tener en cuenta en tu conjunto de datos.

Atributos con valores faltantes

Si tu conjunto de datos contiene una gran cantidad de ejemplos en los que uno o más atributos no tienen valores, esto podría indicar que algunas características clave de tu conjunto de datos están subrepresentadas.

Ejercicio: Comprueba tus conocimientos

Entrenas un modelo para predecir la adoptabilidad de perros de rescate en función de una variedad de características, como la raza, la edad, el peso, el temperamento y la cantidad de pelo que sueltan cada día. Tu objetivo es asegurarte de que el modelo tenga el mismo rendimiento en todos los tipos de perros, independientemente de sus características físicas o de comportamiento.

Descubres que a 1,500 de los 5,000 ejemplos del conjunto de entrenamiento les faltan valores de temperamento. ¿Cuáles de las siguientes son fuentes potenciales de sesgos que debes investigar?

Faltan los datos de temperamento de todos los perros rescatados de las grandes ciudades.
Es más probable que los datos de temperamento falten en los perros menores de 12 meses.
Es más probable que falten datos de temperamento para ciertas razas de perros.
Faltan datos de temperamento en el conjunto de datos de forma aleatoria.

Atributos con valores inesperados

Cuando exploras los datos, debes buscar también ejemplos que contengan atributos con valores que se destaquen por ser atípicos o inusuales. Estos valores de atributos inesperados podrían indicar problemas que ocurrieron durante la recopilación de datos, o bien otras imprecisiones que podrían generar sesgo.

Ejercicio: Comprueba tu comprensión

Revisa el siguiente conjunto hipotético de ejemplos para entrenar un modelo de adoptabilidad de perros de rescate.

raza edad (años) peso (lb) temperamento shedding_level
caniche miniatura 2 12 excitable bajo
golden retriever 7 65 calmado high
labrador retriever 35 73 calmado high
bulldog francés 0.5 11 calmado media
raza mixta desconocida 4 45 entusiasmo high
Basset Hound 9 48 calmado media
¿Puedes identificar algún problema con los datos de componentes?
Haz clic aquí para ver la respuesta

Sesgo de datos

Cualquier tipo de sesgo en tus datos, en el que ciertos grupos o características puedan estar sub o sobrerrepresentados en relación con su prevalencia en el mundo real, puede introducir sesgos en tu modelo.

Cuando se audita el rendimiento del modelo, es importante no solo observar los resultados de forma agregada, sino también desglosarlos por subgrupo. Por ejemplo, en el caso de nuestro modelo de adoptabilidad de perros rescatados, para garantizar la equidad, no es suficiente con observar la precisión general. También debemos auditar el rendimiento por subgrupo para asegurarnos de que el modelo funcione igual de bien para cada raza, grupo de edad y grupo de tamaño de perro.

Más adelante en este módulo, en Cómo evaluar si hay sesgos, veremos con mayor detalle los diferentes métodos para evaluar modelos por subgrupo.