在准备数据以进行模型训练和评估时,务必要 注重公平性问题,并审核潜在的 bias(偏差),这样您可以 在将模型发布到生产环境之前,主动减轻其影响。
哪些地方可能存在偏见?以下是在数据集中需要注意的一些危险信号。
特征值缺失
如果数据集中的一个或多个特征缺少值, 这可能表示某些关键特征 代表性不足。
练习:检查您的理解情况
您发现训练集中的 5000 个样本中有 1500 个是 缺少情感值。以下哪些是潜在来源 偏见?
非预期的特征值
在探索数据时,您还应该寻找包含特征值的样本 特别非典型或不同寻常的内容。这些意想不到的功能 值可能表示在数据收集过程中发生的问题, 可能会导致引入偏差的不准确因素。
练习:检查您的理解情况
查看以下训练营救狗狗的以下假设示例集 采用率模型。
品种 | 年龄(年) | 重量(磅) | 性情 | shedding_level |
---|---|---|---|---|
玩具贵宾犬 | 2 | 12 | 兴奋 | 低价 |
金毛猎犬 | 7 | 65 | 平静 | 高价 |
拉布拉多寻回犬 | 35 | 73 | 平静 | 高价 |
法国斗牛犬 | 0.5 | 11 | 平静 | medium |
未知混合品种 | 4 | 45 | 兴奋 | 高价 |
巴塞猎犬 | 9 | 48 | 平静 | medium |
品种 | 年龄(年) | 重量(磅) | 性情 | shedding_level |
---|---|---|---|---|
玩具贵宾犬 | 2 | 12 | 兴奋 | 低价 |
金毛猎犬 | 7 | 65 | 平静 | 高价 |
拉布拉多寻回犬 | 35 | 73 | 平静 | 高价 |
法国斗牛犬 | 0.5 | 11 | 平静 | medium |
未知混合品种 | 4 | 45 | 兴奋 | 高价 |
巴塞猎犬 | 9 | 48 | 平静 | medium |
通过吉尼斯世界纪录确认年龄最大的狗狗 是Bluey 一只澳洲牧牛犬,活到 29 岁零 5 个月。因此, 令人难以置信的是,拉布拉多寻回犬实际上已经有 35 岁了, 而狗的年龄更有可能是由计算或记录的 (也许狗实际上是 3.5 岁了)。此错误会导致 还表示数据集中年龄数据存在更广泛的准确性问题 值得进一步调查。
数据倾斜
数据存在任何类型的偏差,其中某些群体或特征可能 相对于现实世界的普及率而言,代表性不足或过高) 将偏差引入到模型中。
审核模型性能时,您不仅要查看 但要按子组细分结果。例如,如果 我们的救助狗领养模型,以确保公平性, 只关注整体准确率。我们还应该按子群体审核绩效 以确保模型针对每个犬种、年龄段和 尺寸组。
在本单元后面的评估偏差中, 按子群组详细了解用于评估模型的不同方法。