机器学习术语表:公平性

本页包含“公平性”术语表中的术语。如需查看所有术语表术语,请点击此处

A

属性

#fairness

特征的含义相同。

在机器学习公平性方面,属性通常是指与个人相关的特征。

自动化偏差

#fairness

是指针对自动化决策系统所给出的建议的偏差,在此偏差范围内,即使系统出现错误,决策者也会优先考虑自动化决策系统给出的建议,而不是非自动化系统给出的建议。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

B

偏差(道德/公平性)(bias (ethics/fairness))

#fairness
#fundamentals

1. 对某些事物、人或群体有刻板印象、偏见或偏袒。这些偏差会影响数据的收集和解读、系统设计以及用户与系统的互动方式。此类偏差的形式包括:

2. 采样或报告过程中引入的系统错误。此类偏差的形式包括:

请勿与机器学习模型中的偏差项预测偏差混淆。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

C

确认偏差

#fairness

一种以认可已有观念和假设的方式寻找、解读、支持和召回信息的倾向。机器学习开发者可能会无意中以影响到支撑其现有观念的结果的方式收集或标记数据。确认偏差是一种隐性偏差

实验者偏差是一种确认偏差,实验者会不断地训练模型,直到模型的预测结果能证实他们先前的假设为止。

反事实公平性

#fairness

一种公平性指标,用于检查分类器是否会对某个个体和与其在一个或多个敏感属性方面相同的另一个个体产生相同的结果。评估分类器的反事实公平性是发现模型中潜在偏差来源的一种方法。

如需了解详情,请参阅以下任一内容:

覆盖偏差

#fairness

请参阅选择性偏差

D

人口统计均等

#fairness

公平性指标:如果模型的分类结果不依赖于给定的敏感属性,则满足此指标。

例如,如果小人国和巨人国的人均申请了格鲁布杜布里大学,那么只要被录取的小人国学生所占的比例与被录取的巨人国学生所占的比例相同,就实现了受众特征均等,无论哪一群体的平均资质高低。

机会均等机会均等相比,该属性允许总体分类结果取决于敏感属性,但不允许特定指定标准答案标签的分类结果取决于敏感属性。如需查看探索在针对受众特征差异进行优化时所需做出的权衡的直观图表,请参阅“通过更智能的机器学习避免歧视”一文。

如需了解详情,请参阅机器学习速成课程中的公平性:人口统计学差异

差别待遇

#fairness

对不同人群做出的决策对不同人口子群体的影响不成比例。这通常是指算法决策流程对某些子群体造成的伤害或利益大于对其他子群体。

例如,假设有一个用于确定小人是否符合申请微型住宅贷款资格的算法,如果小人的邮寄地址包含特定邮政编码,该算法就更有可能将其归类为“不符合条件”。如果大端小人国居民比小端小人国居民更有可能拥有此邮政编码的邮寄地址,那么此算法可能会产生不同的影响。

差别待遇相反,后者侧重于当子群体特征作为算法决策流程的显式输入时产生的差异。

差别待遇

#fairness

将正文的敏感属性纳入算法决策流程,以便对不同的人群采取不同的处理方式。

例如,假设有一个算法,该算法根据小人申请贷款时提供的数据来确定他们是否符合申请微型住宅贷款的条件。如果该算法将小人族的隶属关系(大端序或小端序)用作输入,则会在该维度上实施差别对待。

差别影响相比,后者侧重于算法决策对子群体产生的社会影响差异,而不考虑这些子群体是否是模型的输入。

E

机会均等

#fairness

一种公平性指标,用于评估模型是否能对敏感属性的所有值都同样准确地预测出理想结果。换句话说,如果模型的理想结果是正类别,则目标是让所有组的真正例率相同。

机会均等与均等机会相关,这要求所有群组的真正例率假正例率都相同。

假设 Glubbdubdrib 大学同时招收小人国和巨人国学生,并为他们开设了严格的数学课程。小人国的中学提供丰富的数学课程,绝大多数学生都符合大学课程的资格要求。布罗比冈的中学根本不开设数学课程,因此符合条件的学生要少得多。如果符合条件的学生无论是利立浦特人还是布罗比登人,都同样有可能被录取,则对于“已录取”这一首选标签,在国籍方面(利立浦特人或布罗比登人)满足机会均等。

例如,假设 100 名小人和 100 名巨人申请了 Glubbdubdrib 大学,录取决定如下:

表 1. 小人申请者(90% 符合条件)

  符合资格 不合格
已录取 45 3
已拒绝 45 7
总计 90 10
符合条件且被录取的学生所占百分比:45/90 = 50%
不符合条件且被拒绝的学生所占百分比:7/10 = 70%
被录取的利立浦特学生总所占百分比:(45+3)/100 = 48%

 

表 2. 巨人族申请者(10% 符合条件):

  符合资格 不合格
已录取 5 9
已拒绝 5 81
总计 10 90
被录取的符合条件的学生所占百分比:5/10 = 50%
被拒的不符合条件的学生所占百分比:81/90 = 90%
被录取的 Brobdingnagian 学生总所占百分比:(5+9)/100 = 14%

上述示例满足了对符合条件的学生提供平等录取机会的要求,因为符合条件的利立浦特人和布罗比登人都有 50% 的机会被录取。

虽然机会均等性已满足,但以下两个公平性指标未满足:

  • 人口统计均等:利立浦特人和布罗比登人被大学录取的比例不同;48% 的利立浦特人学生被录取,但只有 14% 的布罗比登人学生被录取。
  • 机会均等:虽然符合条件的利立浦特学生和布罗比登冈学生都有相同的录取机会,但未满足另一个约束条件,即不符合条件的利立浦特学生和布罗比登冈学生都有相同的被拒机会。不符合条件的利立浦特人被拒绝的几率为 70%,而不符合条件的布罗比登人被拒绝的几率为 90%。

如需了解详情,请参阅机器学习速成课程中的公平性:机会均等

平局赔率

#fairness

一种公平性指标,用于评估模型是否针对敏感属性的所有值,对正类负类(而不仅仅是其中一个类)都同样准确地预测了结果。换句话说,所有组的真正例率假负例率都应相同。

机会均等与机会均等相关,后者仅关注单个类别(正例或负例)的错误率。

例如,假设 Glubbdubdrib 大学同时招收小人国和巨人国学生参加一门高难度的数学课程。小人国的中学提供丰富的数学课程,绝大多数学生都符合大学课程的资格要求。布罗比冈的中学根本不开设数学课程,因此符合条件的学生人数要少得多。只要申请人符合条件,无论他们是小人国居民还是巨人国居民,都同样有可能被录取,如果他们不符合条件,也同样有可能被拒绝,就满足机会均等的要求。

假设 100 名小人和 100 名巨人申请了 Glubbdubdrib 大学,录取决定如下:

表 3. 小人申请者(90% 符合条件)

  符合资格 不合格
已录取 45 2
已拒绝 45 8
总计 90 10
被录取的符合条件的学生所占百分比:45/90 = 50%
被拒的不符合条件的学生所占百分比:8/10 = 80%
被录取的利立浦特学生总所占百分比:(45+2)/100 = 47%

 

表 4. 巨人族申请者(10% 符合条件):

  符合资格 不合格
已录取 5 18
已拒绝 5 72
总计 10 90
被录取的符合条件的学生所占百分比:5/10 = 50%
被拒的不符合条件的学生所占百分比:72/90 = 80%
被录取的 Brobdingnagian 学生总所占百分比:(5+18)/100 = 23%

由于符合条件的利立浦特学生和布罗比冈学生都有 50% 的机会被录取,而不符合条件的利立浦特学生和布罗比冈学生都有 80% 的机会被拒绝,因此满足机会均等要求。

“监督学习中的机会均等”一文中对“机会均等”进行了正式定义:“如果 Ŷ 和 A 在条件为 Y 时相互独立,则预测器 Ŷ 相对于受保护属性 A 和结果 Y 满足机会均等。”

实验者偏差

#fairness

请参阅确认偏差

F

公平性约束

#fairness
对算法应用约束条件,以确保满足一个或多个公平性定义。公平性约束条件的示例包括:

公平指标

#fairness

对“公平性”的可衡量数学定义。 一些常用的公平性指标包括:

许多公平性指标是互斥的;请参阅公平性指标互不相容

G

群体归因偏差

#fairness

假设某个人的真实情况适用于相应群体中的每个人。如果使用便利抽样收集数据,群体归因偏差的影响会加剧。在非代表性样本中,归因可能不会反映现实。

另请参阅群外同质性偏差群内偏差。此外,如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

H

历史偏差

#fairness

一种已经存在于现实世界中并已渗透到数据集中的偏见。这些偏见往往反映了现有的文化刻板印象、人口统计学差异以及对某些社会群体的偏见。

例如,假设有一个分类模型,用于预测贷款申请人是否会出现贷款违约,该模型是根据两个不同社区当地银行上世纪 80 年代的贷款违约历史数据训练得出的。如果社区 A 的过往申请人违约的可能性是社区 B 申请人的 6 倍,那么模型可能会学习到历史偏差,导致该模型不太可能批准社区 A 的贷款,即使导致该社区违约率较高的历史条件已不再相关。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

I

隐性偏差

#fairness

根据一个人的心智模式和记忆自动建立关联或做出假设。隐性偏见会影响以下方面:

  • 数据的收集和分类方式。
  • 设计和开发机器学习系统的方式。

例如,构建可识别婚礼照片的分类器时,工程师可能会将照片中的白色裙子用作一个特征。不过,白色裙子只在某些时代和某些文化中是一种婚礼习俗。

另请参阅确认偏差

公平指标互不相容

#fairness

某些公平性概念互不兼容,无法同时满足。因此,没有任何单一的通用指标可用于量化所有 ML 问题的公平性。

虽然这可能令人沮丧,但公平指标互不相容并不意味着公平性方面的努力没有成效。相反,它建议必须根据特定机器学习问题的具体情况来定义公平性,以防止特定于其用例的伤害。

如需详细了解此主题,请参阅“On the (im)possibility of fairness”

个体公平

#fairness

一项公平性指标,用于检查类似的个人是否获得了类似的分类结果。例如,Brobdingnagian Academy 可能希望通过确保成绩和标准化考试成绩完全相同的两名学生获得入学机会的几率相同,来实现个人公平。

请注意,个体公平性完全取决于您如何定义“相似性”(在本例中,是指成绩和考试分数),如果您的相似性指标遗漏了重要信息(例如学生课程的严苛程度),则可能会引入新的公平性问题。

如需详细了解个体公平性,请参阅“通过认知实现公平性”

群内偏差

#fairness

对自己所属的群组或特征表现出偏向。 如果测试人员或评分者由机器学习开发者的好友、家人或同事组成,那么群内偏差可能会导致产品测试或数据集无效。

群内偏差是一种群体归因偏差。另请参阅群外同质性偏差

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

无反应偏差

#fairness

请参阅选择性偏差

O

群外同质性偏差

#fairness

在比较态度、价值观、性格特质和其他特征时,倾向于认为群外成员之间比群内成员更为相似。群内成员是指您经常与之互动的人员;群外成员是指您不经常与之互动的人员。如果您通过让参与者提供有关群外成员的特性来创建数据集,相比参与者列出的群内成员的特性,群外成员的这些特性可能不太细微且更加刻板。

例如,小人国居民可以详细描述其他小人国居民的房屋,指出建筑风格、窗户、门和大小之间的细微差异。但是,同样的小人国居民可能直接声称大人国居民住的房屋完全一样。

群外同质性偏差是一种群体归因偏差

另请参阅群内偏差

P

参与偏差

#fairness

与未回答偏差的含义相同。请参阅选择性偏差

后处理

#fairness
#fundamentals

在模型运行调整模型的输出。后处理可用于强制执行公平性约束条件,而无需修改模型本身。

例如,您可以通过设置分类阈值,对二元分类器应用后处理,以便通过检查某个属性的所有值的真正正例率是否相同,从而确保该属性的机会均等

预测性一致性

#fairness

一种公平性指标,用于检查对于给定分类器,考虑的子群组的精确率是否等同。

例如,如果一个用于预测大学录取情况的模型在预测利立浦特人和布罗卜丁根人录取情况的精确率相同,则该模型在预测国民身份方面满足预测平权。

预测一致性有时也称为预测性费率一致性

如需详细了解预测一致性,请参阅“公平性定义说明”(第 3.2.1 节)。

预测性费率一致性

#fairness

预测一致性的另一个名称。

预处理

#fairness
在使用数据训练模型之前对其进行处理。预处理可以很简单,例如从英语文本语料库中移除英语字典中不存在的字词;也可以很复杂,例如以某种方式重新表达数据点,以尽可能消除与敏感属性相关的许多属性。预处理有助于满足公平性约束条件

代理(敏感属性)

#fairness
用于替代敏感属性的属性。例如,个人的邮政编码可能会用作其收入、种族或民族的替代指标。

R

报告偏差

#fairness

一种事实,即人们对操作、结果或属性进行描述的频率不能反映这些内容实际出现的频率或者某个属性在多大程度上是某类个体的特征。报告偏差可以影响机器学习系统从中学习规律的数据的构成。

例如,在书中,“laughed”比“breathed”更普遍。机器学习模型对书籍语料库中的“laughing”和“breathing”的相对频率进行评估后,可能会确定“laughing”比“breathing”更常见。

S

采样偏差

#fairness

请参阅选择性偏差

选择性偏差

#fairness

由于在选择过程中在数据中观察到的样本和未观察到的样本之间产生系统差异,因此根据采样数据得出的结论存在误差。存在以下形式的选择偏差:

  • 覆盖偏差:在数据集内表示的群体与机器学习模型要进行预测的群体不符。
  • 采样偏差:数据不是从目标群体中随机收集的。
  • 未回答偏差(也称为参与偏差):某些群体中的用户以不同于其他群体中的用户的比率选择不参加调查问卷。

例如,假设您要创建一个机器学习模型来预测人们对电影的满意程度。为了收集训练数据,您向上映该电影的影院第一排的每个人发一份调查问卷。不假思索地话,这听起来像是收集数据集的合理方式,但是,这种数据收集方式可能会引入以下形式的选择偏差:

  • 覆盖偏差:通过从选择观看电影的人群中采样,您的模型预测可能不会泛化到那些对电影的兴趣尚未到达观看地步的人。
  • 采样偏差:您仅对第一排的观众进行采样,而不是从预期群体(影院中的所有观众)进行随机采样。坐在第一排的观众可能比坐在其他排的观众对电影更感兴趣。
  • 未回答偏差:通常,相比具有温和观点的人,具有强烈观点的人倾向于更频繁地回答可选调查问卷。由于电影调查问卷是可选的,因此回复更有可能形成双峰分布,而不是正态(钟形)分布。

敏感属性

#fairness
由于法律、道德、社会或个人原因,可能会受到特别关注的人类属性。

U

不了解(敏感属性)

#fairness

存在敏感属性,但未包含在训练数据中的情况。由于敏感属性通常与数据的其他属性相关,因此在训练过程中未知晓敏感属性的模型可能仍会对该属性产生差别影响,或者违反其他公平性约束条件