Identificación del sesgo

Cuando el equipo de Jigsaw evaluó inicialmente el modelo de toxicidad de la API de Perspective, descubrió que tenía un buen rendimiento en el conjunto de datos de prueba. Sin embargo, les preocupaba la posibilidad de que el sesgo se pueda manifestar en las predicciones del modelo si había errores sistémicos en los datos de entrenamiento. Para garantizar la calidad de los datos de entrenamiento, la empresa realizó el paso adicional de auditar las etiquetas proporcionadas por los evaluadores humanos a fin de garantizar su precisión.

Sin embargo, a pesar de estos pasos proactivos para eliminar el sesgo en los datos de entrenamiento del modelo, los usuarios aún descubrieron un problema falso positivo para los comentarios que contienen términos de identidad. ¿Cómo ocurrió esto?

Una segunda auditoría del conjunto de entrenamiento reveló que la mayoría de los comentarios que contenían términos de identidad para la raza, la religión y el género se etiquetaban como tóxicos. Estas etiquetas eran correctas; la mayoría de los comentarios en línea que contenían estos términos de identidad eran realmente tóxicos. Sin embargo, como resultado de este sesgo, el modelo aprendió una correlación entre la presencia de estos términos de identidad y la toxicidad, que no reflejaban con exactitud las connotaciones neutrales de los términos.

El equipo descubrió una brecha crítica en los datos de entrenamiento del modelo: un área en la que no había suficientes datos de entrenamiento para representar un aspecto clave de la realidad. El conjunto de entrenamiento no contenía suficientes ejemplos de comentarios de identidad no tóxicos para que el modelo aprendiera que los términos en sí eran neutrales y que el contexto en el que se usaban era lo importante.