Identificação de tendências

Quando a equipe da Jigsaw inicialmente avaliou o modelo de toxicidade da API Perspective, descobriu que ele teve um bom desempenho no conjunto de dados de teste. No entanto, eles estavam preocupados com a possibilidade de o viés se manifestar nas previsões do modelo se houver erros sistêmicos nos dados de treinamento. Para garantir a qualidade dos dados de treinamento, a empresa adotou a etapa adicional de auditoria dos rótulos fornecidos pelos avaliadores humanos para garantir a precisão.

No entanto, apesar das medidas proativas adotadas para eliminar vieses nos dados de treinamento do modelo, os usuários ainda descobriram um problema de falso positivo para comentários com termos de identidade. Como isso aconteceu?

Uma segunda auditoria do conjunto de treinamento revelou que a maioria dos comentários que contêm termos de identidade de raça, religião e gênero foram marcados como tóxicos. Esses rótulos estavam corretos. A maioria dos comentários on-line que contêm esses termos de identidade era, na verdade, prejudicial. Mas como resultado dessa distorção, o modelo aprendeu uma correlação entre a presença desses termos de identidade e a toxicidade, o que não refletia com precisão as condenações neutras dos próprios termos.

A equipe descobriu uma lacuna crítica nos dados de treinamento do modelo: uma área em que não havia dados de treinamento suficientes para representar um aspecto importante da realidade. O conjunto de treinamento não continha exemplos suficientes de comentários de identidade não tóxicos para o modelo a fim de saber se os termos em si eram neutros e que o contexto em que foram usados era o que importava.