Práctica del AA: equidad en la API de Perspective

Comprueba tu comprensión: Cómo identificar y solucionar el sesgo

Identificación de sesgos

En el Ejercicio n.o 1: Explora el modelo, confirmaste que el modelo clasificaba de forma desproporcionada los comentarios con términos de identidad como tóxicos. ¿Qué métricas ayudan a explicar la causa de este sesgo? Explora las opciones que aparecen a continuación.
Exactitud

La precisión mide el porcentaje de predicciones totales que son correctas, es decir, el porcentaje de predicciones que son verdaderos positivos o verdaderos negativos. La comparación de la exactitud de diferentes subgrupos (como los datos demográficos de género diferente) nos permite evaluar el rendimiento relativo del modelo para cada grupo y puede servir como indicador del efecto del sesgo en un modelo.

Sin embargo, debido a que la exactitud considera predicciones correctas e incorrectas en conjunto, no distingue entre los dos tipos de predicciones correctas y los dos tipos de predicciones incorrectas. Si solo nos fijamos en la exactitud, no podemos determinar los desgloses subyacentes de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos, lo que brindaría más información sobre la fuente del sesgo.

Tasa de falsos positivos

La tasa de falsos positivos (FPR) es el porcentaje de ejemplos reales negativos (comentarios no tóxicos) que se clasificaron incorrectamente como positivos (comentarios tóxicos). La FPR es un indicador del efecto del sesgo en el modelo. Cuando comparamos las FPR de diferentes subgrupos (como datos demográficos de género diferente), descubrimos que los comentarios de texto que contienen términos de identidad relacionados con el género tienen más probabilidades de clasificarse incorrectamente como tóxicos (falsos positivos) que los comentarios que no contienen estos términos.

Sin embargo, no buscamos medir el efecto del sesgo, queremos encontrar su causa. Para ello, debemos examinar con más detalle las entradas de la fórmula FPR.

Negativos reales y positivos reales
En los conjuntos de datos de entrenamiento y prueba de este modelo, los positivos reales son todos los ejemplos de comentarios que son tóxicos y los negativos reales todos los ejemplos que no lo son. Dado que los términos de identidad en sí son neutrales, se espera un número equilibrado de comentarios reales negativos y positivos que contengan un término de identidad determinado. Si vemos una cantidad desproporcionadamente baja de negativos reales, eso indica que el modelo no vio muchos ejemplos de términos de identidad usados en contextos positivos o neutros. En ese caso, el modelo puede aprender una correlación entre los términos de identidad y la toxicidad.
Recuperación
La recuperación es el porcentaje de predicciones positivas reales que se clasificaron correctamente como positivas. Nos indica el porcentaje de comentarios tóxicos que el modelo captó correctamente. Aquí, nos preocupa el sesgo relacionado con los falsos positivos (comentarios no tóxicos que se clasificaron como tóxicos), y la recuperación no proporciona ninguna información sobre este problema.

Corrección de sesgos

¿Cuáles de las siguientes acciones pueden ser métodos eficaces para corregir el sesgo en los datos de entrenamiento usados en el Ejercicio n.° 1 y el Ejercicio n.° 2? Explora las opciones que aparecen a continuación.
Agregar más ejemplos negativos (no tóxicos) que contengan términos de identidad al conjunto de entrenamiento
Agregar más ejemplos negativos (comentarios que en realidad no son tóxicos) que contienen términos de identidad ayudará a equilibrar el conjunto de entrenamiento. Así, el modelo verá un mejor equilibrio de los términos de identidad usados en contextos tóxicos y no tóxicos, para que pueda aprender que los términos en sí son neutrales.
Agregar más ejemplos positivos (tóxicos) que contengan términos de identidad al conjunto de entrenamiento
Los ejemplos nocivos ya están sobrerrepresentados en el subconjunto de ejemplos que contienen términos de identidad. Si agregamos más de estos ejemplos al conjunto de entrenamiento, en realidad exacerramos el sesgo existente en lugar de corregirlo.
Agregar más ejemplos negativos (no tóxicos) sin términos de identidad al conjunto de entrenamiento
Los términos de identidad ya están subrepresentados en los ejemplos negativos. Agregar más ejemplos negativos sin términos de identidad aumentaría este desequilibrio y no ayudaría a solucionar el sesgo.
Agregar más ejemplos positivos (tóxicos) sin términos de identidad al conjunto de entrenamiento

Es posible que agregar más ejemplos positivos sin términos de identidad ayude a romper la asociación entre los términos de identidad y la toxicidad que el modelo había aprendido anteriormente.

Evaluación de sesgo

Entrenaste tu propio clasificador de toxicidad en el texto desde cero, y tu equipo de ingeniería planea usarlo para impedir automáticamente que se muestren comentarios clasificados como tóxicos. Te preocupa que cualquier sesgo hacia la toxicidad por comentarios relacionados con el género pueda dar como resultado la supresión del discurso no tóxico sobre el género y quieres evaluar el sesgo relacionado con el género en las predicciones del clasificador. ¿Cuál de las siguientes métricas deberías usar para evaluar el modelo? Explora las opciones que aparecen a continuación.
Tasa de falsos positivos (FPR)
En producción, el modelo se usará para suprimir automáticamente las predicciones positivas (tóxicas). Tu objetivo es garantizar que el modelo no suprima los falsos positivos (comentarios no tóxicos que el modelo clasificó erróneamente como tóxicos) en los comentarios relacionados con el género en una tasa más alta que en los comentarios generales. Comparar las FPR de los subgrupos de género con las FPR generales es una excelente manera de evaluar la corrección del sesgo para tu caso de uso.
Tasa de falsos negativos (FNR)
La FNR mide la tasa en la que el modelo clasifica de forma incorrecta la clase positiva (en este caso, "tóxica") como la clase negativa ("no tóxica"). En este caso de uso, te indica la frecuencia con la que los comentarios realmente tóxicos pasarán por el filtro y se mostrarán a los usuarios. Aquí, tu principal preocupación es cómo se manifiesta el sesgo en términos de supresión del discurso no tóxico. La FNR no proporciona estadísticas sobre esta dimensión del rendimiento del modelo.
Exactitud
La precisión mide el porcentaje de predicciones del modelo que fueron correctas y, al contrario, el porcentaje de las predicciones que fueron incorrectas. En este caso de uso, la precisión te indica la probabilidad de que el filtro suprimió el discurso no tóxico o mostró el discurso tóxico. Tu preocupación principal es el primer problema, no el último. Dado que la exactitud combina los dos problemas, no es la métrica de evaluación ideal para usar en este caso.
AUC
El AUC proporciona una medición absoluta de la capacidad predictiva de un modelo. Es una buena métrica para evaluar el rendimiento general. Sin embargo, aquí te preocupa específicamente los índices de supresión de comentarios, y el AUC no te brinda información directa sobre este problema.
Se agregó un moderador de contenido a tu equipo y el gerente de producto decidió cambiar la forma en que se implementará el clasificador. En lugar de suprimir automáticamente los comentarios clasificados como tóxicos, el software de filtrado marcará esos comentarios para que los revise el moderador de contenido. Dado que una persona revisará los comentarios etiquetados como tóxicos, el sesgo ya no se manifestará como supresión de contenido. ¿Cuáles de las siguientes métricas podrías usar para medir el sesgo (y el efecto de su solución) ahora? Explora las opciones que aparecen a continuación.
Tasa de falsos positivos (FPR)
En la tasa de falsos positivos, podrás ver el porcentaje de comentarios no tóxicos que se clasificaron incorrectamente como tóxicos. Dado que un moderador humano ahora auditará todos los comentarios que el modelo etiquete como “tóxicos” y debería detectar la mayoría de los falsos positivos, la FPR ya no es una preocupación principal.
Tasa de falsos negativos (FNR)
Si bien un moderador humano auditará todos los comentarios etiquetados como “tóxicos” y garantizará que los falsos positivos no se supriman, no revisará los comentarios etiquetados como “no tóxicos”. Esto deja abierta la posibilidad de que haya sesgos relacionados con los falsos negativos. Puedes usar FNR (el porcentaje de positivos reales que se clasificaron como negativos) para evaluar sistemáticamente si los comentarios tóxicos para los subgrupos de género tienen más probabilidades de etiquetarse como no tóxicos que los comentarios en general.
Precisión
La precisión indica el porcentaje de predicciones positivas que son realmente positivas; en este caso, el porcentaje de predicciones "tóxicas" que son correctas. Dado que un moderador humano auditará todas las predicciones “tóxicas”, no necesitas que la precisión sea una de tus métricas de evaluación principales.
Recuperación
La recuperación indica el porcentaje de positivos reales que se clasificaron correctamente. A partir de este valor, puedes obtener el porcentaje de positivos reales que se clasificaron de forma incorrecta (de 1 a recuerdo), lo que es una métrica útil para evaluar si los comentarios tóxicos relacionados con el género se clasifican de forma desproporcionadamente errónea como "no tóxicos" en comparación con los comentarios generales.