Identification du biais

Lorsque l'équipe Jigsaw a commencé à évaluer le modèle de toxicité de l'API Perspective, elle a constaté que celui-ci fonctionnait bien sur l'ensemble de données de test. Toutefois, il était possible qu'un biais puisse apparaître dans les prédictions du modèle si les données d'entraînement comportaient des erreurs systémiques. Pour garantir la qualité des données d'entraînement, il a réalisé une étape supplémentaire de vérification des étiquettes fournies par les évaluateurs humains afin de s'assurer de leur exactitude.

Cependant, malgré ces mesures proactives pour éliminer les biais dans les données d'entraînement du modèle, les utilisateurs ont toujours détecté un problème de faux positif pour les commentaires contenant des termes liés à l'identité. Que s'est-il passé ?

Un deuxième audit de l'ensemble d'entraînement a révélé que la majorité des commentaires contenant des termes liés à l'identité raciale, religieuse ou sexuelle étaient identifiés comme toxiques. Ces étiquettes étaient correctes. La plupart des commentaires en ligne contenant ces termes sur l'identité étaient en effet toxiques. Toutefois, en raison de ce décalage, le modèle a appris une corrélation entre la présence de ces termes d'identité et la toxicité, ce qui ne reflétait pas précisément les neutralisations neutres de ces termes.

L'équipe avait découvert un fossé critique dans les données d'entraînement du modèle : une zone où les données d'entraînement étaient insuffisantes pour représenter un aspect essentiel de la réalité. L'ensemble d'entraînement ne contenait pas suffisamment d'exemples de commentaires sur l'identité non toxiques pour que le modèle apprenne que les termes eux-mêmes étaient neutres et que le contexte dans lequel ils étaient utilisés était important.