在准备数据以进行模型训练和评估时,请务必考虑公平性问题,并审核是否存在可能导致出现偏差的潜在来源,以便在将模型发布到生产环境之前主动减少其影响。
偏见可能存在于哪些方面?以下是数据集中需要注意的一些危险信号。
缺少特征值
如果您的数据集中有一个或多个特征缺少大量样本数据,那么这可能表明数据集中的某些关键特性未得到充分代表。
练习:检查您的理解情况
您发现训练集中的 5,000 个示例中有 1,500 个缺少气质值。以下哪些是潜在的偏见来源,您应该调查?
特征值异常
在探索数据时,您还应查找包含明显非典型或异常特征值的样本。这些意外的特征值可能表明数据收集期间出现了问题,或者存在其他可能导致偏差的不准确性。
练习:检查您的理解情况
查看以下用于训练救援狗可领性模型的以下假设示例集。
品种 | 年龄(年) | 重量(磅) | 性情 | shedding_level |
---|---|---|---|---|
玩具贵宾犬 | 2 | 12 | 易激动 | 低价 |
金毛寻回犬 | 7 | 65 | 平静 | 高价 |
拉布拉多猎犬 | 35 | 73 | 平静 | 高价 |
法国斗牛犬 | 0.5 | 11 | 平静 | medium |
未知混血 | 4 | 45 | 兴奋 | 高价 |
巴吉度猎犬 | 9 | 48 | 平静 | medium |
品种 | 年龄(年) | 重量(磅) | 性情 | shedding_level |
---|---|---|---|---|
玩具贵宾犬 | 2 | 12 | 易激动 | 低价 |
金毛寻回犬 | 7 | 65 | 平静 | 高价 |
拉布拉多猎犬 | 35 | 73 | 平静 | 高价 |
法国斗牛犬 | 0.5 | 11 | 平静 | medium |
未知混血 | 4 | 45 | 兴奋 | 高价 |
巴吉度猎犬 | 9 | 48 | 平静 | medium |
吉尼斯世界纪录认证过的最长寿狗是澳大利亚牧牛犬 Bluey,它活了 29 年零 5 个月。鉴于此,这只拉布拉多犬实际上 35 岁的说法似乎不太可信,更有可能是狗的年龄计算或记录有误(狗可能实际上只有 3.5 岁)。此错误还可能表明数据集中的年龄数据存在更广泛的准确性问题,需要进一步调查。
数据倾斜
数据倾斜是指相对于实际的发生率而言,某些小组或特性未得到充分代表或得到过度代表;如果您的数据存在任何形式的倾斜,便可能会在模型中引入偏差。
审核模型性能时,不仅要按汇总查看结果,还要按子组查看结果。例如,在我们的救助犬领养资格模型中,仅查看整体准确性不足以确保公平性。我们还应按子群组审核效果,以确保模型对每种狗狗品种、年龄段和大小群组的预测效果均不相上下。
在本单元稍后的评估偏差部分,我们将详细介绍按子群组评估模型的不同方法。