公平性:偏差的类型

机器学习模型本身并不具有客观性。工程师通过向模型提供一组训练样本来训练模型,在预配和挑选这些数据过程中的人工干预可能会使模型的预测容易受到偏差。

构建模型时,务必要留意数据中可能会出现的常见人为偏差,以便采取主动措施来降低其影响。

报告偏差

当数据集中捕获的事件、属性和/或结果的频率不能准确反映它们的实际频率时,就会出现报告偏差。出现这种偏差的原因是,人们倾向于将不寻常或特别难忘的情况记录下来,并假设普通人“可以不言自明”地进行提问。

自动化偏差

与非自动化系统生成的结果相比,自动化偏差倾向于自动化系统生成的结果(无论每个结果的错误率如何)。

选择偏差

如果所选择数据集样本无法反映其真实分布情况,便会出现选择偏差。选择偏差可以采用多种不同形式:

  • 覆盖偏差:未以具有代表性的方式选择数据。
  • 未回答偏差(或参与偏差):由于数据收集过程中存在参与缺口,导致数据不具有代表性。
  • 抽样偏差:在数据收集期间不使用适当的随机化。

群组归因偏差

群体归因偏差倾向于将个体的真实情况泛化到其所属的整个群体。这种偏差的两个主要表现为:

  • 群内偏差:偏向于您所属群体的成员,或与您共同共享的特征。
  • 群外同质性偏差:倾向于对不属于您的群体的各个成员进行刻板印象,或看到其特征更加一致。

隐式偏差

当根据不一定普遍适用的个人心智模型和个人经验做出假设时,就会出现隐式偏差

隐性偏差的一种常见形式是确认偏差,即模型构建者无意中确认了现有观念和假设所采取的方式处理数据。在某些情况下,模型构建器实际上可能会不断地训练模型,直到模型得出与原始假设一致的结果;这称为实验者偏差