Práctica de AA: Equidad en la API de Perspective

Descubre cómo el equipo de Jigsaw abordó el acoso en línea en asociación con el equipo de Tecnología de Contra abuso de Google, mediante el desarrollo de la API de Perspective, que usa el aprendizaje automático para identificar los comentarios tóxicos. Luego, usa los indicadores de equidad para evaluar los modelos de AA y mitigar los sesgos no intencionales en los datos de entrenamiento.

Introducción

Jigsaw es una unidad de Alphabet que desarrolla tecnología para hacer del mundo un lugar más seguro. En 2017, el equipo se propuso abordar el acoso en línea y desarrolló la API de Perspective. El objetivo de la API de Perspective es aumentar la participación, la calidad y la empatía de la conversación en línea a gran escala. Los desarrolladores y publicadores pueden usar Perspective para identificar y filtrar el texto que inhibe el diálogo constructivo en los foros en línea mediante el análisis del contenido de los comentarios en busca de texto potencialmente ofensivo, como amenazas, insultos, lenguaje obsceno y lenguaje tóxico.

La API de Perspective toma el texto del comentario como entrada y muestra una "puntuación" de 0 a 1, que indica la probabilidad de que el comentario sea similar a comentarios tóxicos que se vieron en el pasado. Una puntuación de 0 significa un 0% de probabilidad de que el comentario sea tóxico, una puntuación de 1 significa un 100% de probabilidad de que el comentario sea tóxico, y una puntuación de 0.5 significa una probabilidad del 50% de que el comentario sea tóxico (es decir, si el modelo no está seguro).

Planteamiento del problema

Después del lanzamiento inicial de la API de Perspective, los usuarios externos descubrieron una correlación positiva entre los términos de identidad que contenían información sobre la raza, la orientación sexual y la puntuación de toxicidad. Por ejemplo, la frase "Soy una mujer negra gay" recibió una puntuación de toxicidad de 0.87. En este caso, los términos de identidad no se usaban de manera peyorativa, por lo que este ejemplo se clasificó de forma incorrecta. ¿Dónde salió mal?