公平性:识别偏见

在准备数据以进行模型训练和评估时,请务必考虑公平性问题,并审核是否存在可能导致出现偏差的潜在来源,以便在将模型发布到生产环境之前主动减少其影响。

偏见可能存在于哪些方面?以下是数据集中需要注意的一些危险信号。

缺少特征值

如果您的数据集中有一个或多个特征缺少大量样本数据,那么这可能表明数据集中的某些关键特性未得到充分代表。

练习:检查您的理解情况

您要训练一个模型,以便根据各种特征(包括品种、年龄、体重、性情和每天脱落的毛发数量)预测救助犬的适合度。您的目标是确保模型对所有类型的狗狗都具有相同的效果,无论它们的身体或行为特征如何

您发现训练集中的 5,000 个示例中有 1,500 个缺少气质值。以下哪些是潜在的偏见来源,您应该调查?

某些犬种更有可能缺少性情数据。
如果狗的品种与是否有性情数据相关,那么这可能会导致系统对某些狗狗的适合领养程度预测不准确。
年龄在 12 个月以下的狗狗更可能缺少温度数据
如果性情数据的可用性与年龄相关,那么与成年犬相比,幼犬的可领养性预测结果可能会不太准确。
所有从大城市救出的狗狗的性情数据都缺失。
乍一看,这似乎并不是潜在的偏见来源,因为缺失的数据会对大城市的所有狗狗造成同等的影响,而不考虑其品种、年龄、体重等。不过,我们仍然需要考虑狗狗的来源地是否可有效代表这些身体特征。例如,如果来自大城市的狗狗比来自更多农村地区的狗狗要小得多,则可能会导致对低体重狗或某些小狗品种的领养性预测不太准确。
数据集中随机缺少性情数据。
如果气质数据确实是随机缺失的,那么这不会成为潜在的偏差来源。不过,情绪数据可能会随机缺失,但进一步调查可能会揭示差异的原因。因此,请务必进行全面检查,排除其他可能性,而不是假定数据缺口是随机的。

特征值异常

在探索数据时,您还应查找包含明显非典型或异常特征值的样本。这些意外的特征值可能表明数据收集期间出现了问题,或者存在其他可能导致偏差的不准确性。

练习:检查您的理解情况

查看以下用于训练救援狗可领性模型的以下假设示例集。

品种 年龄(年) 重量(磅) 性情 shedding_level
玩具贵宾犬 2 12 易激动 低价
金毛寻回犬 7 65 平静 高价
拉布拉多猎犬 35 73 平静 高价
法国斗牛犬 0.5 11 平静 medium
未知混血 4 45 兴奋 高价
巴吉度猎犬 9 48 平静 medium
您能否发现特征数据存在任何问题?
点击此处查看答案

数据倾斜

数据倾斜是指相对于实际的发生率而言,某些小组或特性未得到充分代表或得到过度代表;如果您的数据存在任何形式的倾斜,便可能会在模型中引入偏差。

审核模型性能时,不仅要按汇总查看结果,还要按子组查看结果。例如,在我们的救助犬领养资格模型中,仅查看整体准确性不足以确保公平性。我们还应按子群组审核效果,以确保模型对每种狗狗品种、年龄段和大小群组的预测效果均不相上下。

在本单元稍后的评估偏差部分,我们将详细介绍按子群组评估模型的不同方法。