公平性:机会平等

在上一部分中,我们使用 比较两者的总体接受率 受众特征群体。

或者,我们可以只比较合格 多数人和少数族裔群体中的候选人出席。如果接受率 两组符合条件的学生人数相等,该模型显示 机会平等: 具有首选标签(“符合入学资格”)的学生在 被录取的可能性,无论他们属于哪个受众特征群体 目标。

我们来回顾一下上一部分中的候选人池:

多数派 少数群体
符合条件 35 15
不符合条件 45 5

假设招生模型接受多数群体中的 14 个候选人 和 6 位来自少数族裔群体的候选人。模型的决策满足 即合格多数人的接受率, 符合条件的少数族裔候选人的得分为 40%。

分 100 位候选人组成的小组,分为两组:已拒绝
      候选者(66 位蓝色学生,14 位橙色学生)和“已接受”
      候选人(14 位蓝色学生,6 位橙色学生)。在“已接受”
      全部 20 位学生都显示为绿色(表示
      而“已拒绝”组中,有 21 位蓝色学生和 9 位
      橙色学生也对应的是绿色
图 4. “已拒绝”和“已接受”的候选人的细分数据,包括 以阴影表示多数和少数群体的合格学生 以绿色显示在这 35 位符合资格的多数群体学生中,有 14 位 接受。在这 15 名符合条件的少数族裔学生中,有 6 名 接受。因此,这两个组的接受率均为 40% 符合条件的学生。

下表量化了支持被拒和已接受的 API 的数字 如图 4 所示。

多数派 少数群体
已接受 已拒绝 已接受 已拒绝
符合条件 14 21 6 9
不符合条件 0 45 0 5

优点和缺点

机会平等的关键好处在于, 正向预测与负向预测的比率因受众特征群体而异, 但前提是该模型在预测首选标签方面 (“符合入场条件”)。

图 4 中的模型预测满足受众特征一致性, 学生入学的几率为 17.5%, 少数族裔学生被录取的概率为 30%。不过, 符合条件的学生有 40% 的概率被录取 这可能是一种更公平的结果, 特定的模型用例。

机会平等的一个缺点是, 如果有明显的首选标签如果它们同样重要 模型对正类别和字词的预测性预测为正类别(“符合准入条件”) 以及负类别(“不符合入场条件”)的所有受众群体; 那么可能合理的做法是 相等几率,强制 两个标签的成功率相同。

机会平等的另一个缺点是,它会评估公平性 比较不同受众特征群体的错误率, 并不总是可行的。例如,如果登记模型的数据集 没有 demographic_group 功能,则无法 细分出合格的多数选民和少数族裔候选人的接受率 并比较它们,看看是否满足了机会平等。

在下一节中,我们将了解另一个公平性指标, 公平性,可在受众特征数据 所有样本都存在。

练习:检查您的理解情况

判断正误:二元分类模型不可能 同时满足 。
正确
模型的预测有可能同时满足受众特征 机会平等和平等看看你能不能想出一个 然后选择另一个 选择下方,查看我们的解释。
错误

模型的预测有可能同时满足受众特征 机会平等和平等

例如,假设有一个二元分类器(其首选标签 是正类别)对 100 个样本进行评估, 如以下混淆矩阵所示, 受众特征群体(大多数人和少数群体):

多数派 少数群体
预测为正例 预测为负例 预测为正例 预测为负例
实际正例 6 12 3 6
实际负例 10 36 6 21

\(\text{Positive Rate} = \frac{6+10}{6+10+12+36} = \frac{16}{64} = \text{25%}\)

\(\text{True Positive Rate} = \frac{6}{6+12} = \frac{6}{18} = \text{33%}\)

\(\text{Positive Rate} = \frac{3+6}{3+6+6+21} = \frac{9}{36} = \text{25%}\)

\(\text{True Positive Rate} = \frac{3}{3+6} = \frac{3}{9} = \text{33%}\)

多数群体和少数群体的预测率均为正数 达到 25%,满足受众特征一致性要求,并且具有真正例率 (在 正确分类的概率为 33%,这可满足机会均等的需要。