机器学习实践课程:Perspective API 的公平性

检查您的理解情况:识别和消除偏差

确定偏差

练习 1:探索模型中,您确认了模型对包含身份字词的评论不成比例地将评论归类为恶意评论。哪些指标有助于解释这种偏差的原因? 请查看以下选项。
准确率

准确率衡量正确总预测的百分比,即真正例或真正负例的预测所占的百分比。通过比较不同子群体(例如不同的性别受众特征)的准确率,我们可以评估模型在每个群体中的相对表现,并可作为偏差对模型的影响的指标。

但是,由于准确率会考虑汇总的正确和错误的预测,因此它无法区分这两类正确的预测和两种类型的错误预测。仅就准确率而言,我们无法确定真正例、真负例、假正例和假负例的基本细分,这将使我们能够更深入地了解偏差的来源。

假正例率

假正例率 (FPR) 是指被错误分类为正例(恶意评论)的实际负例(无恶意评论)所占的百分比。FPR 是指示偏差对模型的影响的指标。在比较不同子群组(例如不同的性别受众特征)的 FPR 时,我们会了解到,包含性别相关身份字词的文本评论比不包含这些字词的评论更有可能被错误地归类为恶意评论(假正例)。

不过,我们并不是衡量偏差的影响,而是想找出其原因。为此,我们需要仔细研究 FPR 公式的输入。

实际负例和实际正例
在此模型的训练和测试数据集中, 实际正例是恶意评论的示例, 实际负例都是无恶意评论。鉴于身份字词本身是中性的,我们希望包含指定身份字词的实际负面评论与实际正面评论的数量相等。如果我们看到实际负例数量少得不成比例,这表明模型在正面或中立语境中没有看到很多身份字词的示例。在这种情况下,模型可能会学习身份字词与恶意评论之间的相关性。
召回率
召回率是指被正确归类为正例的实际正例预测所占的百分比。它会告诉我们模型成功捕获到的恶意评论所占的百分比。在这里,我们关注的是与假正例(被归类为恶意评论的无恶意评论)相关的偏差,召回率无法深入揭示此问题。

消除偏差

以下哪项措施可能是纠正练习 1练习 2 中使用的训练数据中的偏差的有效方法?请查看以下选项。
向训练集中添加更多包含身份字词的负例(无恶意)样本。
添加更多包含身份字词的负例(实际上是无恶意的评论)有助于平衡训练集。然后,模型将能够更好地平衡恶意和非恶意上下文中使用的身份字词,从而了解这些字词本身是中性的。
向训练集添加更多包含身份字词的正(恶意)示例。
恶意样本在包含身份字词的样本子集中已经出现过度代表。如果我们向训练集添加更多此类示例,实际上会使现有偏差加剧,而不是进行纠正。
向训练集添加更多不含身份字词的负例(无恶意)样本。
反面示例中未充分代表身份字词。添加更多不含身份字词的负例会增加这种不平衡,并且无法帮助消除偏差。
向训练集添加更多不含身份字词的正(恶意)样本。

如果添加更多不含身份字词的正例示例,可能会有助于打破模型之前学到的身份字词与恶意言论之间的关联。

评估偏差

您已从零开始训练了自己的文本恶意分类器,您的工程团队计划使用该分类器自动禁止显示被归类为恶意评论的评论。您担心与性别相关的评论若有偏见,可能会导致对性别的无恶意言论受到抑制,并且您希望评估分类器预测中的性别相关偏差。您应该使用以下哪项指标来评估模型?请查看以下选项。
假正例率 (FPR)
在生产环境中,模型将用于自动抑制正(恶意)预测。您的目标是确保模型对于性别相关评论的假正例(即模型被错误归类为恶意评论的无恶意评论)的抑制率高于总体评论的比率。将性别子群组的 FPR 与总体 FPR 进行比较,是评估用例的偏差修复的绝佳方法。
假负例率 (FNR)
FNR 测量的是模型将正类别(此处为“恶意类别”)错误分类为负类别(“无恶意”)的比率。对于此用例,它会告诉您实际恶意评论通过过滤器显示给用户的速率。 在这里,您的主要关注点是如何通过抑制恶意言论来表现出偏见。您无法通过 FNR 获取有关模型性能这一维度的任何数据洞见。
准确率
准确率衡量的是正确模型预测的百分比,反过来说就是错误预测的百分比。对于此使用场景,准确率表示过滤器抑制了无恶意言论或显示恶意言论的可能性。您主要关心的问题是前一个问题,而不是后一个问题。由于准确性将这两个问题混淆,因此它不是此处使用的理想评估指标。
AUC
AUC 提供了模型预测能力的绝对衡量。这是评估整体性能的一个有效指标。但在这里,您特别关注的是评论禁止显示率,而 AUC 无法让您直接了解此问题。
您的团队中增加了内容管理员,产品经理已决定更改分类器的部署方式。过滤软件会标记这些评论以供内容管理员进行审核,而不是自动抑制被归类为恶意评论的评论。由于有人负责审核标记为恶意评论的评论,因此偏见不会再以内容抑制的形式显现。现在,您可能需要使用以下哪个指标来衡量偏差以及偏差修复的效果?请查看以下选项。
假正例率 (FPR)
假正例率显示被错误分类为恶意评论的非恶意评论所占的百分比。由于现在人工审核员将审核模型标记为“恶意”的所有评论,并且应该能够捕获大多数假正例,因此 FPR 不再是主要问题。
假负例率 (FNR)
虽然人工审核员将审核所有标记为“恶意”的评论并确保不会抑制假正例,但他们不会审核标记为“无恶意”的评论。这会导致出现与假负例相关的偏差。您可以使用 FNR(被归类为负例的实际正例所占的百分比)系统地评估性别子群组的恶意评论是否比总体评论更有可能被标记为无恶意评论。
精确率
精确率告诉您实际为正例的正例预测所占的百分比,在本例中为正确答案的“恶意”预测所占的百分比。由于人工审核员将审核所有“恶意”预测,因此您不需要将精确率作为主要评估指标之一。
召回率
召回率是指被正确分类的实际正例所占的百分比。通过这个值,您可以推导出被错误分类的实际正例所占的百分比(1 - 召回率)。该指标有助于衡量与性别相关的恶意评论是否比总体评论被误分类为“非恶意”评论,这一比例十分有用。