机器学习术语表:Responsible AI

本页包含负责任的 AI 术语表。如需查看所有术语,请点击此处

A

属性

#responsible

特征的含义相同。

在机器学习公平性方面,属性通常是指与个人相关的特征。

自动化偏差

#responsible

是指针对自动化决策系统所给出的建议的偏差,在此偏差范围内,即使系统出现错误,决策者也会优先考虑自动化决策系统给出的建议,而不是非自动化系统给出的建议。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

B

偏差(道德/公平性)

#responsible
#fundamentals

1. 对某些事物、人或群体有刻板印象、偏见或偏袒。这些偏差会影响数据的收集和解读、系统设计以及用户与系统的互动方式。此类偏差的形式包括:

2. 采样或报告过程中引入的系统性误差。 此类偏差的形式包括:

请勿与机器学习模型中的偏差项预测偏差混淆。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

C

确认偏差

#responsible

一种以认可已有观念和假设的方式寻找、解读、支持和召回信息的倾向。 机器学习开发者可能会无意中以影响到支撑其现有观念的结果的方式收集或标记数据。确认偏差是一种隐性偏差

实验者偏差是一种确认偏差,实验者会不断地训练模型,直到模型的预测结果能证实他们先前的假设为止。

反事实公平性

#responsible
#Metric

一种公平性指标,用于检查分类模型是否会针对以下两种个体生成相同的结果:一种个体与另一种个体完全相同,只是在一种或多种敏感属性方面有所不同。评估分类模型的反事实公平性是发现模型中潜在偏差来源的一种方法。

如需了解详情,请参阅以下任一内容:

覆盖偏差

#responsible

请参阅选择性偏差

D

人口统计均等

#responsible
#Metric

一种公平性指标,如果模型分类的结果不依赖于给定的敏感属性,则满足该指标。

例如,如果小人国人和巨人国人都申请了 Glubbdubdrib 大学,那么如果录取的小人国人百分比与录取的大人国人百分比相同,则实现了人口统计学上的平等,无论一个群体是否比另一个群体平均而言更符合条件。

均衡赔率机会均等形成对比,后者允许总体分类结果取决于敏感属性,但不允许某些指定标准答案标签的分类结果取决于敏感属性。如需查看直观图表,了解在优化人口统计学均等性时需要做出的权衡,请参阅“通过更智能的机器学习避免歧视”

如需了解详情,请参阅机器学习速成课程中的公平性:人口统计学奇偶性

不同影响

#responsible

做出有关人员的决策,但这些决策对不同的人口子群组的影响不成比例。这通常是指算法决策过程对某些子群体的伤害或益处大于其他子群体的情况。

例如,假设某个算法用于确定小人国居民是否符合微型住宅贷款的申请条件,如果小人国居民的邮寄地址包含某个邮政编码,该算法更有可能将他们归类为“不符合条件”。如果大端序小人国居民比小端序小人国居民更可能拥有此邮政编码的邮寄地址,那么此算法可能会造成差别影响。

差别对待形成对比,后者侧重于当子群组特征是算法决策过程的显式输入时导致的不公平现象。

差别待遇

#responsible

在算法决策过程中纳入受试者的敏感属性,以便区别对待不同的人群子群组。

例如,假设有一种算法,可根据小人国居民在贷款申请中提供的数据来确定他们是否符合微型住宅贷款的条件。如果算法使用 Lilliputian 的派别(大端或小端)作为输入,则会在该维度上实施差别对待。

差异化影响形成对比,后者侧重于算法决策对子群体的社会影响方面的差异,无论这些子群体是否是模型的输入。

E

机会均等

#responsible
#Metric

一种公平性指标,用于评估模型是否能针对敏感属性的所有值同样准确地预测出理想结果。换句话说,如果模型的理想结果是正类别,那么目标就是让所有组的真正例率保持一致。

机会平等与赔率均衡有关,后者要求所有群组的真正例率和假正例率都相同。

假设 Glubbdubdrib 大学允许小人国人和巨人国人参加严格的数学课程。Lilliputians 的中学提供完善的数学课程,绝大多数学生都符合大学课程的入学条件。Brobdingnagians 的中学根本不提供数学课程,因此,他们的学生中只有极少数人符合条件。如果合格学生被录取的机会均等,无论他们是小人国人还是巨人国人,那么对于“录取”这一首选标签,机会均等就满足了。

例如,假设有 100 名小人国人和 100 名巨人国人申请了 Glubbdubdrib 大学,录取决定如下:

表 1. Lilliputian 申请者(90% 符合条件)

  符合资格 不合格
已录取 45 3
已拒绝 45 7
总计 90 10
被录取的合格学生所占百分比:45/90 = 50%
被拒的不合格学生所占百分比:7/10 = 70%
被录取的小人国学生所占总百分比:(45+3)/100 = 48%

 

表 2. Brobdingnagian 申请者(10% 符合条件):

  符合资格 不合格
已录取 5 9
已拒绝 5 81
总计 10 90
符合条件的学生录取百分比:5/10 = 50%
不符合条件的学生拒绝百分比:81/90 = 90%
Brobdingnagian 学生总录取百分比:(5+9)/100 = 14%

上述示例满足了合格学生在入学方面的机会平等,因为合格的利立浦特人和布罗卜丁奈格人都只有 50% 的入学机会。

虽然满足了机会均等,但未满足以下两个公平性指标:

  • 人口统计均等:小人国人和巨人国人被大学录取的比例不同;48% 的小人国学生被录取,但只有 14% 的巨人国学生被录取。
  • 机会均等:虽然符合条件的小人国学生和巨人国学生被录取的几率相同,但不符合条件的小人国学生和巨人国学生被拒的几率相同这一额外限制条件并未得到满足。不合格的利立浦特人的拒绝率为 70%,而不合格的布罗卜丁奈格巨人的拒绝率为 90%。

如需了解详情,请参阅机器学习速成课程中的公平性:机会平等

均衡赔率

#responsible
#Metric

一种公平性指标,用于评估模型是否能针对敏感属性的所有值,同样准确地预测正类别负类别的结果,而不仅仅是其中一个类别。换句话说,所有组的真正例率假负例率都应相同。

均衡赔率与机会均等相关,后者仅关注单个类(正类或负类)的错误率。

例如,假设 Glubbdubdrib 大学允许小人国人和巨人国人同时参加一项严格的数学课程。Lilliputians 的中学提供全面的数学课程,绝大多数学生都符合大学课程的入学条件。Brobdingnagians 的中学根本不提供数学课程,因此,他们的学生中只有极少数人符合条件。只要满足以下条件,即可实现均衡赔率:无论申请者是小人国人还是巨人国人,如果他们符合条件,被该计划录取的可能性都相同;如果他们不符合条件,被拒绝的可能性也相同。

假设有 100 名小人国人和 100 名巨人国人申请了 Glubbdubdrib 大学,录取决定如下:

表 3. Lilliputian 申请者(90% 符合条件)

  符合资格 不合格
已录取 45 2
已拒绝 45 8
总计 90 10
被录取的合格学生所占百分比:45/90 = 50%
被拒绝的不合格学生所占百分比:8/10 = 80%
被录取的 Lilliputian 学生总数所占百分比:(45+2)/100 = 47%

 

表 4. Brobdingnagian 申请者(10% 符合条件):

  符合资格 不合格
已录取 5 18
已拒绝 5 72
总计 10 90
符合条件的学生被录取百分比:5/10 = 50%
不符合条件的学生被拒绝百分比:72/90 = 80%
Brobdingnagian 学生被录取总百分比:(5+18)/100 = 23%

由于符合条件的小人国学生和巨人国学生被录取的概率均为 50%,而不符合条件的小人国学生和巨人国学生被拒绝的概率均为 80%,因此满足了赔率均等条件。

“监督学习中的机会平等”中对均衡赔率的正式定义如下:“如果预测变量 Ŷ 和受保护属性 A 在以结果 Y 为条件的情况下相互独立,则预测变量 Ŷ 满足关于受保护属性 A 和结果 Y 的均衡赔率。”

实验者偏差

#responsible

请参阅确认偏差

F

公平性约束

#responsible
对算法应用限制条件,以确保满足一项或多项公平性定义。公平性限制的示例包括:

公平性指标

#responsible
#Metric

可衡量的“公平性”的数学定义。 一些常用的公平性指标包括:

许多公平性指标是互斥的;请参阅公平性指标互不相容

G

群体归因偏差

#responsible

假设某个人的真实情况适用于相应群体中的每个人。如果使用便利抽样收集数据,群体归因偏差的影响会加剧。在非代表性样本中,归因可能不会反映现实。

另请参阅群外同质性偏差群内偏差。另请参阅机器学习速成课程中的公平性:偏差类型,了解详情。

H

历史偏差

#responsible

一种已经存在于现实世界中并已进入数据集的偏见。这些偏差往往会反映出既有的文化刻板印象、人口统计学不平等以及对某些社会群体的偏见。

例如,假设有一个分类模型,用于预测贷款申请人是否会拖欠贷款,该模型是根据 20 世纪 80 年代来自两个不同社区的本地银行的历史贷款违约数据进行训练的。如果社区 A 的过往申请人拖欠贷款的可能性是社区 B 的申请人的 6 倍,模型可能会学习到历史偏差,导致模型不太可能批准社区 A 的贷款,即使导致该社区拖欠率较高的历史条件已不再相关。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

I

隐性偏差

#responsible

根据一个人的心智模式和记忆自动建立关联或做出假设。隐性偏差会影响以下方面:

  • 数据的收集和分类方式。
  • 机器学习系统的设计和开发方式。

例如,在构建用于识别婚礼照片的分类模型时,工程师可能会将照片中的白色裙子用作一个特征。不过,白色裙子只在某些时代和某些文化中是一种婚礼习俗。

另请参阅确认偏差

公平性指标互不相容

#responsible
#Metric

某些公平性概念互不相容,无法同时满足。因此,没有一种通用的指标可用于量化公平性,并适用于所有机器学习问题。

虽然这可能令人沮丧,但公平性指标互不相容并不意味着公平性方面的努力是徒劳的。相反,它表明必须根据特定机器学习问题的具体情况来定义公平性,目的是防止出现特定于其应用场景的危害。

如需更详细地了解公平性指标的不兼容性,请参阅“公平性的(不)可能性”

个体公平性

#responsible
#Metric

一种公平性指标,用于检查相似的个体是否被归为相似的类别。例如,Brobdingnagian Academy 可能希望通过确保成绩和标准化考试分数完全相同的两名学生获得入学的可能性相同,来满足个人公平性。

请注意,个体公平性完全取决于您如何定义“相似性”(在本例中为成绩和考试分数),如果相似性指标遗漏了重要信息(例如学生课程的严格程度),您可能会引入新的公平性问题。

如需详细了解个体公平性,请参阅“通过感知实现公平”

群内偏差

#responsible

对自身所属的群组或自身特征表现出偏向。 如果测试人员或评分者由机器学习开发者的好友、家人或同事组成,那么群内偏差可能会导致产品测试或数据集无效。

群内偏差是一种群体归因偏差。 另请参阅群外同质性偏差

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

无回答偏差

#responsible

请参阅选择性偏差

O

群外同质性偏差

#responsible

在比较态度、价值观、性格特质和其他特征时,倾向于认为群外成员之间比群内成员更为相似。群内成员是指您经常与之互动的人员;群外成员是指您不经常与之互动的人员。如果您通过让参与者提供有关群外成员的特性来创建数据集,相比参与者列出的群内成员的特性,群外成员的这些特性可能不太细微且更加刻板。

例如,小人国居民可以详细描述其他小人国居民的房屋,指出建筑风格、窗户、门和大小之间的细微差异。但是,同样的小人国居民可能直接声称大人国居民住的房屋完全一样。

群外同质性偏差是一种群体归因偏差

另请参阅群内偏差

P

参与偏差

#responsible

与无回答偏差的含义相同。请参阅选择性偏差

后处理

#responsible
#fundamentals

在模型运行调整模型输出。 后期处理可用于强制执行公平性限制,而无需修改模型本身。

例如,可以对二元分类模型应用后处理,方法是设置分类阈值,以通过检查真正例率对于某个属性的所有值是否相同,来维持该属性的机会均等

预测性平价

#responsible
#Metric

一种公平性指标,用于检查对于给定的分类模型,所考虑的子群组的精确率是否相等。

例如,如果一个预测大学录取情况的模型对小人国人和巨人国人的精确率相同,那么该模型就满足了民族预测均等性。

预测性奇偶一致性有时也称为预测率奇偶一致性

如需更详细地了解预测对等性,请参阅“公平性定义说明”(第 3.2.1 部分)。

预测性价格一致性

#responsible
#Metric

预测奇偶性的另一个名称。

预处理

#responsible
在数据用于训练模型之前对其进行处理。预处理可以很简单,例如从英文文本语料库中移除未出现在英语词典中的字词;也可以很复杂,例如以尽可能消除与敏感属性相关联的属性的方式重新表达数据点。预处理有助于满足公平性约束条件

代理(敏感属性)

#responsible
用作敏感属性的替代属性。例如,个人的邮政编码可能会被用作其收入、种族或民族的代理变量。

R

报告偏差

#responsible

一种事实,即人们对操作、结果或属性进行描述的频率不能反映这些内容实际出现的频率或者某个属性在多大程度上是某类个体的特征。报告偏差可以影响机器学习系统从中学习规律的数据的构成。

例如,在书中,“laughed”比“breathed”更普遍。机器学习模型对书籍语料库中的“laughing”和“breathing”的相对频率进行评估后,可能会确定“laughing”比“breathing”更常见。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

S

抽样偏差

#responsible

请参阅选择性偏差

选择性偏差

#responsible

由于在选择过程中在数据中观察到的样本和未观察到的样本之间产生系统差异,因此根据采样数据得出的结论存在误差。存在以下形式的选择偏差:

  • 覆盖偏差:在数据集内表示的群体与机器学习模型要进行预测的群体不符。
  • 抽样偏差:数据不是从目标群体中随机收集的。
  • 未回答偏差(也称为参与偏差):某些群体中的用户以不同于其他群体中的用户的比率选择不参加调查问卷。

例如,假设您要创建一个机器学习模型来预测人们对电影的满意程度。为了收集训练数据,您向上映该电影的影院第一排的每个人发一份调查问卷。不假思索地话,这听起来像是收集数据集的合理方式,但是,这种数据收集方式可能会引入以下形式的选择偏差:

  • 覆盖偏差:通过从选择观看电影的人群中采样,您的模型预测可能不会泛化到那些对电影的兴趣尚未到达观看地步的人。
  • 抽样偏差:您仅对第一排的观众进行抽样,而不是从预期群体(影院中的所有观众)进行随机抽样。坐在第一排的观众可能比坐在其他排的观众对电影更感兴趣。
  • 未回答偏差:通常,相比具有温和观点的人,具有强烈观点的人倾向于更频繁地回答可选调查问卷。由于电影调查问卷是可选的,因此回复更有可能形成双峰分布,而不是正态(钟形)分布。

敏感属性

#responsible
由于法律、道德、社会或个人原因,可能会受到特别关注的人类属性。

U

无感知(对于敏感属性)

#responsible

存在敏感属性,但未包含在训练数据中。由于敏感属性通常与数据的其他属性相关联,因此,如果模型在训练时未意识到某个敏感属性,仍可能在该属性方面产生差异化影响,或者违反其他公平性限制