机器学习实践课程:Perspective API 中的公平性

了解 Jigsaw 团队如何与 Google 的反滥用技术团队合作开发 Perspective API,利用该 API 识别恶意评论,从而解决在线骚扰问题。然后,使用 Fairness Indicators 评估机器学习模型,帮助减少训练数据中的意外偏差。

简介

Jigsaw 是 Alphabet 的一个部门,致力于开发技术以改善世界安全。2017 年,该团队着手解决在线骚扰问题,并开发了 Perspective API。Perspective API 的目标是大规模提高在线对话的参与度、质量和同理心。开发者和发布商可以利用 Perspective 分析可能令人反感的文字的评论内容(包括威胁、侮辱、亵渎性和恶意言论),从而识别和过滤禁止在线论坛中建设性对话的文本。

Perspective API 将注释文本作为输入,并返回一个介于 0 到 1 之间的分数,该分数表示评论与过去出现恶意评论的概率。得分为 0 表示评论是恶意评论的概率为 0%,得分为 1 则表示该评论是恶意评论的概率为 100%,得分为 0.5 则表示该评论是恶意评论的概率为 50%。

问题陈述

在 Perspective API 首次发布后,外部用户发现包含种族或性取向信息以及恶意言论得分的身份字词之间存在正关联。例如,“我是男同性恋黑人女性”一词的恶意言论得分为 0.87。在本示例中,身份术语并非随意使用,因此此示例的分类有误。哪里出错了?