公平性:偏见的类型

机器学习 (ML) 模型本身不是客观的。机器学习从业者通过向模型提供训练示例数据集来训练模型,如果人工参与提供和管理这些数据,则可能会导致模型的预测结果容易出现偏差。

构建模型时,请务必注意常见的人为偏见, 这样您便可以主动采取措施 效果。

报告偏差

历史偏差

自动化偏差

选择性偏差

如果数据集中选择的样本未能反映样本的真实分布情况,便会出现选择性偏差。选择性偏差有多种不同形式,包括覆盖偏差、回复率偏差和抽样偏差。

覆盖偏差

无反应偏差

采样偏差

群体归因偏差

群体归因偏差 倾向于将个体的真实情况泛化到整个群体, 它们所属的类别群体归因偏差通常表现为以下两种情况 表单。

群内偏差

群外同质性偏差

隐性偏差

确认偏差

实验者偏差

练习:检查您的理解情况

以下哪些类型的偏差会造成影响 与上述大学招生模型中描述的偏差预测相比, 英寸 简介
历史偏差
招生模型基于过去的学生记录进行训练 20 年。如果这些数据代表少数族裔学生, 模型本来可以重现那些 对新学生数据进行预测。
群内偏差
招生模型由现役大学生训练,他们可能会无意识地偏向于录取与自己背景相似的学生,这可能会影响他们对模型训练数据的管理或特征工程处理方式。
确认偏差
该招生模型由在校大学生训练而成, 那些可能早就认为自己应具备的资格条件 都与计算机科学计划的成功相关。他们可以 无意中对数据进行了挑选或特征工程, 模型证实了这些现有的信念。
自动化偏差
自动化偏差或许是招生委员会选择的原因 使用机器学习模型做出录入决策;它们可能 认为自动化系统比自动化系统 人类作出的决策。然而,自动化偏差并不能提供 对模型预测结果出现偏差的原因进行任何分析。