Cuando preparas tus datos para el entrenamiento y la evaluación de modelos, es importante tener presentes los problemas de equidad y auditar las posibles fuentes de sesgo, para que puedas mitigar sus efectos de forma proactiva antes de lanzar el modelo a producción
¿Dónde podría aparecer el sesgo? Estas son algunas señales de alerta a las que debes prestar atención en tu conjunto de datos.
Atributos con valores faltantes
Si tu conjunto de datos tiene uno o más atributos a los que les faltan valores para una de ejemplos, lo que podría ser un indicador de que ciertas características clave de tu conjunto de datos están subrepresentados.
Ejercicio: Comprueba tus conocimientos
Descubres que 1,500 de los 5,000 ejemplos del conjunto de entrenamiento valores de temperamento faltantes. ¿Cuáles de las siguientes opciones son fuentes potenciales? de sesgos que deberías investigar?
Atributos con valores inesperados
Cuando exploras datos, también debes buscar ejemplos que contengan valores de atributos que sobresalen como poco características o inusuales. Estas funciones inesperadas pueden indicar problemas que ocurrieron durante la recopilación de datos u otras imprecisiones que podrían generar sesgo.
Ejercicio: Comprueba tus conocimientos
Revisa el siguiente conjunto hipotético de ejemplos para entrenar un perro rescatado de adopción del modelo.
raza | edad (años) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
caniche toy | 2 | 12 | emocionante | baja |
golden retriever | 7 | 65 | calmado | high |
labrador retriever | 35 | 73 | calmado | high |
bulldog francés | 0.5 | 11 | calmado | media |
raza mixta desconocida | 4 | 45 | emocionante | high |
basset hound | 9 | 48 | calmado | media |
raza | edad (años) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
caniche toy | 2 | 12 | emocionante | baja |
golden retriever | 7 | 65 | calmado | high |
labrador retriever | 35 | 73 | calmado | high |
bulldog francés | 0.5 | 11 | calmado | media |
raza mixta desconocida | 4 | 45 | emocionante | high |
basset hound | 9 | 48 | calmado | media |
El perro más grande cuya edad se verificó en los Récords Guinness fue Bluey, un ganadero australiano que vivió 29 años y 5 meses. Dicho esto, parece bastante inútil que el labrador retriever tenga, en realidad, 35 años, y más probabilidades de que la edad del perro se haya calculado o registrado incorrectamente (quizás el perro en realidad tiene 3.5 años). Este error podría Esto también indica problemas de exactitud más amplios en los datos de edad del conjunto de datos. que ameritan una mayor investigación.
Sesgo de datos
Cualquier tipo de sesgo en tus datos, en el que determinados grupos o características subrepresentados o sobrerrepresentados en relación con su prevalencia en el mundo real pueden o ingresar sesgos en tu modelo.
Cuando audites el rendimiento del modelo, es importante no solo observar los resultados pero para desglosar los resultados por subgrupo. Por ejemplo, en el caso de nuestro modelo de adopción del perro rescatado, para garantizar la equidad, no es suficiente solo mira la exactitud general. También debemos auditar el rendimiento por subgrupo para asegurarse de que el modelo funcione igual de bien para cada raza, grupo etario y el tamaño del grupo de anuncios.
Más adelante en este módulo, en Evaluación de sesgo, echamos un vistazo más de cerca a los diferentes métodos para evaluar modelos por subgrupo.