准确定位偏差

Jigsaw 团队最初评估 Perspective API 毒性模型时,他们发现该模型在测试数据集上表现良好。但他们担心,如果训练数据存在任何系统错误,偏差仍可能会出现在模型的预测结果中。为了确保训练数据质量,他们采取了额外的措施来审核人工审核者提供的标签,以确保其准确无误。

然而,尽管我们采取了这些主动措施来消除模型的训练数据中的偏差,但用户仍然发现了包含身份字词的评论的假正例问题。这是如何发生的?

我们再次审核了该训练集,发现大多数包含种族、宗教和性别认同术语的评论都带有恶意标记。这些标签是正确的;大多数包含这些身份词语的在线评论都是有害的。但由于这一偏差,模型学会了这些身份术语是否存在与毒性之间的联系,而后者并不能准确反映这些术语本身的中性暗示。

该团队发现了模型的训练数据中的关键缺口:该领域没有足够的训练数据来代表现实的一个关键方面。该训练集没有足够的无毒身份注释示例,无法让模型学到这些术语本身是中性的,而且它们的使用情境也很重要。