机器学习 (ML) 模型本身不是客观的。机器学习从业者通过向模型提供训练示例数据集来训练模型,如果人工参与提供和管理这些数据,则可能会导致模型的预测结果容易出现偏差。
构建模型时,请务必注意常见的人为偏见, 这样您便可以主动采取措施 效果。
报告偏差
-
定义
如果出现以下情况,就会出现报告偏差: 数据集捕获的事件、属性和/或结果 准确地反映它们的真实频率。这种偏差可能 因为人们往往专注于记录 不寻常或特别令人难忘(假设平凡并没有 进行录制
-
示例
训练一个情感分析模型,以便根据用户提交给热门网站的语料库来预测图书评价是好评还是差评。训练数据集中的大多数评价都反映了极端观点(评价者对图书的评价是极其喜爱或极其厌恶),因为人们不太可能对图书没有强烈的回应就提交评价。作为 因此,模型无法正确预测 使用更微妙的语言描述图书的评价。
点击相应定义的chevron_left。
历史偏差
-
定义
当历史数据发生时,就会出现历史偏差 反映了当时世界上存在的不公平问题。
自动化偏差
-
定义
自动化偏差倾向于结果 自动化系统生成的数据是非自动化系统生成的, 而不考虑每个系统的错误率。
-
示例
为某个链轮制造商工作的机器学习从业者非常渴望部署他们训练的“开创性”新模型来识别齿缺陷,直到工厂主管指出该模型的精确度和召回率都比人工检查员低 15%。
点击相应定义的chevron_left。
选择性偏差
如果数据集中选择的样本未能反映样本的真实分布情况,便会出现选择性偏差。选择性偏差有多种不同形式,包括覆盖偏差、回复率偏差和抽样偏差。
覆盖偏差
-
定义
如果数据在 Google Cloud 的运行情况中未选择,就会出现覆盖偏差 一种具有代表性的方式
-
示例
通过训练模型来预测新产品的未来销量 对已购买产品/服务的消费者进行电话调查, 产品。我们没有对选择购买竞争产品的消费者进行调查,因此训练数据中不包含这类人群。
点击 chevron_left。
无反应偏差
-
定义
未回答偏差(也称为 参与偏差) 由于数据收集过程中存在缺口,缺乏代表性 过程。
-
示例
通过训练模型来预测新产品的未来销量 对已购买产品/服务的消费者进行电话调查, 对购买过竞争对手的竞争对手的产品进行抽样, 产品。购买竞争产品的消费者数量高出 80% 拒绝填写调查问卷且其数据 在样本中代表性不足。
点击 chevron_left。
采样偏差
-
定义
如果在数据收集期间未采用适当的随机化方法,就会出现采样偏差。
-
示例
通过训练模型来预测新产品的未来销量 对已购买产品/服务的消费者进行电话调查, 对购买过竞争对手的竞争对手的产品进行抽样, 产品。调查人员选择了回复电子邮件的前 200 位消费者,而不是随机选择消费者,因为这些消费者可能比普通购买者对该产品更感兴趣。
点击 chevron_left。
群体归因偏差
群体归因偏差 倾向于将个体的真实情况泛化到整个群体, 它们所属的类别群体归因偏差通常表现为以下两种情况 表单。
群内偏差
-
定义
群内偏差是指偏向于您所属群体或具有共同特征的群体内成员。
-
示例
两名机器学习从业者训练一个简历过滤模型, 软件开发者倾向于认为应聘者 并且就读于同一所计算机科学院校 更适合这个角色
点击 chevron_left。
群外同质性偏差
-
定义
群外同质性偏差是指倾向于 刻板印象某个群体中您并不认同的 或认为它们的特征更加一致。
-
示例
假设两名机器学习从业者在训练用于筛选软件开发者简历的模型,他们会倾向于认为毕业于非计算机科学院校的所有求职者都不具备担任相应职位所需的足够专业知识。
点击相应定义的chevron_left。
隐性偏差
-
定义
如果根据不一定普遍适用的个人思维模式和个人经验做出假设,便会出现隐性偏差。
确认偏差
-
定义
确认偏差是指模型构建者在处理数据时会不自觉地肯定已有的信念和假设。
-
示例
一名机器学习从业者正在构建一个可预测攻击性的模型 根据各种特征(身高、体重、品种、 )。该从业者与一个 从小就特别活跃的玩具贵宾犬 具有攻击性的品种。在整理模型的训练数据时,该从业者无意识地舍弃了能够证明小型犬温顺的特征。
点击 chevron_left。
实验者偏差
-
定义
模型构建者会出现实验者偏差 会不断地训练模型,直到获得 原始假设。
-
示例
一名机器学习从业者要构建一个模型,根据狗的各种特征(身高、体重、品种、环境)预测狗的攻击性。这名从业者幼年曾经有过与一只活蹦乱跳的宠物贵宾犬相处的不愉快经历,从那以后便认为该品种的狗具有攻击性。当经过训练的模型 对贵宾犬比较温和,从业者接受过再培训 然后多次运行模型,直到得出显示如下结果的结果: 让小型贵宾犬更暴力。
点击 chevron_left。