公平性

评估机器学习模型时,您需要做的不仅仅是计算损失指标。在将模型投入生产之前,审核训练数据并评估预测结果是否存在偏差至关重要。

本单元介绍训练数据中可能会出现的不同类型的人为偏差。然后提供了一些策略来识别和评估它们的影响。

公平性

商店货架上的一串香蕉
  • 香蕉
一串香蕉
  • 香蕉
  • 贴纸
一串香蕉
  • 香蕉
  • 贴纸
  • 货架上的香蕉
一串香蕉
  • 绿色香蕉
  • 未熟的香蕉
一串绿色的香蕉
  • 过度使用香蕉
  • 适合做香蕉面包
一堆棕色香蕉

黄色香蕉

黄色是香蕉的典型特征

一堆黄色香蕉
典型机器学习工作流的示意图:收集数据,然后训练模型,然后生成输出
数据中存在两种偏差:展示数据的人为偏差(例如群体外同质性偏差)和影响数据收集和注解的人为偏差(例如确认偏差)
  1. 考虑问题
  1. 考虑问题
  2. 询问专家
  1. 考虑问题
  2. 询问专家
  3. 训练模型以将偏差考虑在内
  1. 考虑问题
  2. 询问专家
  3. 训练模型以将偏差考虑在内
  4. 解读结果
  1. 考虑问题
  2. 询问专家
  3. 训练模型以将偏差考虑在内
  4. 解读结果
  5. 结合背景信息发布