公平性:机会平等

在上一部分中,我们使用 比较两者的总体接受率 受众特征群体。

或者,我们可以只比较合格 多数人和少数族裔群体中的候选人出席。如果接受率 两组符合条件的学生人数相等,该模型显示 机会平等: 具有首选标签(“符合入学资格”)的学生在 被录取的可能性,无论他们属于哪个受众特征群体 目标。

我们来回顾一下上一部分中的候选人池:

多数派 少数群体
符合条件 35 15
不符合条件 45 5

假设招生模型接受多数群体中的 14 个候选人 和 6 位来自少数族裔群体的候选人。模型的决策满足 即合格多数人的接受率, 符合条件的少数族裔候选人的得分为 40%。

分 100 位候选人组成的小组,分为两组:已拒绝
      候选者(66 位蓝色学生,14 位橙色学生)和“已接受”
      候选人(14 位蓝色学生,6 位橙色学生)。在“已接受”
      全部 20 位学生都显示为绿色(表示
      而“已拒绝”组中,有 21 位蓝色学生和 9 位
      橙色学生也对应的是绿色
图 4. “已拒绝”和“已接受”的候选人的细分数据,包括 以阴影表示多数和少数群体的合格学生 以绿色显示在这 35 位符合资格的多数群体学生中,有 14 位 接受。在这 15 名符合条件的少数族裔学生中,有 6 名 接受。因此,这两个组的接受率均为 40% 符合条件的学生。

下表量化了支持被拒和已接受的 API 的数字 如图 4 所示。

多数派 少数群体
已接受 已拒绝 已接受 已拒绝
符合条件 14 21 6 9
不符合条件 0 45 0 5

优点和缺点

机会平等的关键好处在于, 正向预测与负向预测的比率因受众特征群体而异, 但前提是该模型在预测首选标签方面 (“符合入场条件”)。

图 4 中的模型预测满足受众特征一致性, 学生入学的几率为 17.5%, 少数族裔学生被录取的概率为 30%。不过, 符合条件的学生有 40% 的概率被录取 这可能是一种更公平的结果, 特定的模型用例。

机会平等的一个缺点是, 如果有明显的首选标签如果它们同样重要 模型对正类别和字词的预测性预测为正类别(“符合准入条件”) 以及负类别(“不符合入场条件”)的所有受众群体; 那么可能合理的做法是 相等几率,强制 两个标签的成功率相同。

机会平等的另一个缺点是,它会评估公平性 比较不同受众特征群体的错误率, 并不总是可行的。例如,如果登记模型的数据集 没有 demographic_group 功能,则无法 细分出合格的多数选民和少数族裔候选人的接受率 并比较它们,看看是否满足了机会平等。

在下一节中,我们将了解另一个公平性指标, 公平性,可在受众特征数据 所有样本都存在。

练习:检查您的理解情况

判断正误:二元分类模型不可能 同时满足 。
正确
错误