A medida que preparas tus datos para el entrenamiento y la evaluación del modelo, es importante tener en cuenta los problemas de equidad y auditar las posibles fuentes de sesgo para que puedas mitigar sus efectos de forma proactiva antes de lanzar el modelo a producción.
¿Dónde podría aparecer el sesgo? A continuación, se incluyen algunos indicadores de advertencia que debes tener en cuenta en tu conjunto de datos.
Atributos con valores faltantes
Si tu conjunto de datos contiene una gran cantidad de ejemplos en los que uno o más atributos no tienen valores, esto podría indicar que algunas características clave de tu conjunto de datos están subrepresentadas.
Ejercicio: Comprueba tus conocimientos
Descubres que a 1,500 de los 5,000 ejemplos del conjunto de entrenamiento les faltan valores de temperamento. ¿Cuáles de las siguientes son fuentes potenciales de sesgos que debes investigar?
Atributos con valores inesperados
Cuando exploras los datos, debes buscar también ejemplos que contengan atributos con valores que se destaquen por ser atípicos o inusuales. Estos valores de atributos inesperados podrían indicar problemas que ocurrieron durante la recopilación de datos, o bien otras imprecisiones que podrían generar sesgo.
Ejercicio: Comprueba tu comprensión
Revisa el siguiente conjunto hipotético de ejemplos para entrenar un modelo de adoptabilidad de perros de rescate.
raza | edad (años) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
caniche miniatura | 2 | 12 | excitable | bajo |
golden retriever | 7 | 65 | calmado | high |
labrador retriever | 35 | 73 | calmado | high |
bulldog francés | 0.5 | 11 | calmado | media |
raza mixta desconocida | 4 | 45 | entusiasmo | high |
Basset Hound | 9 | 48 | calmado | media |
raza | edad (años) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
caniche miniatura | 2 | 12 | excitable | bajo |
golden retriever | 7 | 65 | calmado | high |
labrador retriever | 35 | 73 | calmado | high |
bulldog francés | 0.5 | 11 | calmado | media |
raza mixta desconocida | 4 | 45 | entusiasmo | high |
Basset Hound | 9 | 48 | calmado | media |
El perro más longevo cuya edad verificó Guinness World Records fue Bluey, un pastor ganadero australiano que vivió 29 años y 5 meses. Teniendo en cuenta esto, parece bastante improbable que el labrador retriever tenga 35 años y es más probable que la edad del perro se haya calculado o registrado de forma imprecisa (tal vez tenga 3.5 años). Este error también podría indicar problemas de precisión más amplios con los datos de edad en el conjunto de datos que merecen una investigación más detallada.
Sesgo de datos
Cualquier tipo de sesgo en tus datos, en el que ciertos grupos o características puedan estar sub o sobrerrepresentados en relación con su prevalencia en el mundo real, puede introducir sesgos en tu modelo.
Cuando se audita el rendimiento del modelo, es importante no solo observar los resultados de forma agregada, sino también desglosarlos por subgrupo. Por ejemplo, en el caso de nuestro modelo de adoptabilidad de perros rescatados, para garantizar la equidad, no es suficiente con observar la precisión general. También debemos auditar el rendimiento por subgrupo para asegurarnos de que el modelo funcione igual de bien para cada raza, grupo de edad y grupo de tamaño de perro.
Más adelante en este módulo, en Cómo evaluar si hay sesgos, veremos con mayor detalle los diferentes métodos para evaluar modelos por subgrupo.