机器学习 (ML) 模型本身不是客观的。机器学习从业者 通过向模型提供训练样本数据集和人工训练, 这类数据的提供和策展能够使模型的 容易受到偏差的预测。
构建模型时,请务必注意常见的人为偏见, 这样您便可以主动采取措施 效果。
报告偏差
-
定义
如果出现以下情况,就会出现报告偏差: 数据集捕获的事件、属性和/或结果 准确地反映它们的真实频率。这种偏差可能 因为人们往往专注于记录 不寻常或特别令人难忘(假设平凡并没有 进行录制
-
示例
我们训练了一个情感分析模型, 根据相关用户语料库给出的评价是正面或负面的 向热门网站提交内容。大多数评价在 训练数据集反映了极端意见(如果审核者 因为人们不太可能提交 而评论没有得到强烈回应。作为 因此模型无法正确预测 使用更微妙的语言描述图书的评价。
点击 chevron_left。
历史偏差
-
定义
当历史数据发生时,就会出现历史偏差 反映了当时世界上存在的不公平问题。
自动化偏差
-
定义
自动化偏差倾向于结果 自动化系统生成的数据是非自动化系统生成的, 而不考虑每个系统的错误率。
-
示例
就职于链轮制造商的机器学习从业者渴望 部署全新的“突破性”所训练的模型来识别 直到工厂主管指出 模型的精确率和召回率都比 由人工检查员组成。
点击 chevron_left。
选择性偏差
如果出现选择性偏差, 数据集样本的选择方式不能反映 真实分布情况选择偏差可以表现为多种不同形式, 包括覆盖偏差、未响应偏差和抽样偏差。
覆盖偏差
-
定义
如果未选择数据,则会出现覆盖率偏差。 一种具有代表性的方式
-
示例
通过训练模型来预测新产品的未来销量 对已购买产品/服务的消费者进行电话调查, 产品。选择购买竞争商品的消费者 未进行问卷调查,因此,这组用户 训练数据中的表示形式。
点击 chevron_left。
非回答偏差
-
定义
未回答偏差(也称为 参与偏差) 由于数据收集过程中存在缺口,缺乏代表性 过程。
-
示例
通过训练模型来预测新产品的未来销量 对已购买产品/服务的消费者进行电话调查, 对购买过竞争对手的竞争对手的产品进行抽样, 产品。购买竞争产品的消费者数量高出 80% 拒绝填写调查问卷且其数据 在样本中代表性不足。
点击 chevron_left。
采样偏差
-
定义
如果采用适当的随机化处理方法,便会出现采样偏差 在数据收集过程中不使用。
-
示例
通过训练模型来预测新产品的未来销量 对已购买产品/服务的消费者进行电话调查, 对购买过竞争对手的竞争对手的产品进行抽样, 产品。调查员不再随机定位消费者 选择前 200 名回复了电子邮件的消费者, 对产品的热情超过了平均水平 购买者。
点击 chevron_left。
群体归因偏差
群体归因偏差 倾向于将个体的真实情况泛化到整个群体, 所属的项目。群体归因偏差通常表现为以下两种情况 表单。
群内偏差
-
定义
群内偏差指的是 属于自己的群体,或者具有类似特征的群体 您也会共享的
-
示例
两名机器学习从业者训练一个简历过滤模型, 软件开发者倾向于认为应聘者 同时就读于同一所计算机科学院校 更适合这个角色
点击 chevron_left。
群外同质性偏差
-
定义
群外同质性偏差指的是 刻板印象某个群体中您不愿意接受的 或认为它们的特征更加一致。
-
示例
两名机器学习从业者训练一个简历过滤模型, 软件开发者倾向于认为所有应聘者 没有在计算机科学学院就读的人 具备足够的专业知识。
点击 chevron_left。
隐性偏差
-
定义
做出假设时就会出现隐性偏差 基于自己的思维模式和个人经历, 则不一定适用于更广泛的范围。
确认偏差
-
定义
模型构建者时会出现确认偏差 无意识地以认可已有观念的方式处理数据 和假设。
-
示例
一名机器学习从业者正在构建一个可预测攻击性的模型 根据各种特征(身高、体重、品种、 )。该从业者与一个 从小就特别活跃的玩具贵宾犬 具有攻击性的品种。在挑选模型的训练数据时, 从业者无意识地舍弃了 体型较小的狗狗温柔的证据。
点击 chevron_left。
实验者偏差
-
定义
模型构建者会出现实验者偏差 会不断地训练模型,直到获得 原始假设。
-
示例
一名机器学习从业者正在构建一个可预测攻击性的模型 根据各种特征(身高、体重、品种、 )。该从业者与一个 从小就特别活跃的玩具贵宾犬 具有攻击性的品种。当经过训练的模型 对贵宾犬比较温和,从业者接受过再培训 多次训练,直到获得显示 让小型贵宾犬更暴力。
点击 chevron_left。