公平性:识别偏见

在准备数据以进行模型训练和评估时,务必要 注重公平性问题,并审核潜在的 bias(偏差),这样您可以 在将模型发布到生产环境之前,主动减轻其影响。

哪些地方可能存在偏见?以下是在数据集中需要注意的一些危险信号。

特征值缺失

如果数据集中的一个或多个特征缺少值, 这可能表示某些关键特征 代表性不足。

练习:检查您的理解情况

您正在训练模型,以便根据营救狗狗的收养能力预测 包括品种、年龄、体重、性情 以及每天脱落的毛皮数量。您的目标是确保 在所有类型的狗狗上也同样表现良好,无论它们体型如何 或行为特征

您发现训练集中的 5000 个样本中有 1500 个是 缺少情感值。以下哪些是潜在来源 偏见?

某些品种的性情数据更可能缺失 狗狗。
如果性情数据的可用性与狗的品种相关, 那么对产品采用率的预测可能会降低, 某些犬种。
12 周岁以下狗狗更有可能缺失性情数据 个月
如果性情数据的可用性与年龄有关,那么 这可能会导致预测的可采用性降低 和成年狗狗的区别。
所有从大城市救出的狗狗的性情数据都缺失。
乍一看,这似乎不是潜在来源 因为缺失的数据会影响所有狗狗, 不论品种、年龄、体重等因素,城市都一样平等。 不过,我们仍然需要考虑狗狗来自哪里 可有效充当这些实体的 特征。例如,如果来自大城市的狗狗 比来自更多农村的狗狗小得多 这可能导致采用度预测不太准确 。
数据集中随机缺少性情数据。
如果性情数据真的是随机缺失的,那就不会 可能会成为偏见的原因。不过,也有可能 数据似乎是随机缺失的,但我们会进一步调查, 可能会揭示造成差异的原因。因此,请务必 进行全面检查以排除其他可能性 假设数据缺口是随机的。

非预期的特征值

在探索数据时,您还应该寻找包含特征值的样本 特别非典型或不同寻常的内容。这些意想不到的功能 值可能表示在数据收集过程中发生的问题, 可能会导致引入偏差的不准确因素。

练习:检查您的理解情况

查看以下训练营救狗狗的以下假设示例集 采用率模型。

品种 年龄(年) 重量(磅) 性情 shedding_level
玩具贵宾犬 2 12 兴奋 低价
金毛猎犬 7 65 平静 高价
拉布拉多寻回犬 35 73 平静 高价
法国斗牛犬 0.5 11 平静 medium
未知混合品种 4 45 兴奋 高价
巴塞猎犬 9 48 平静 medium
您能找出特征数据存在的任何问题吗?
点击此处查看答案

数据倾斜

数据存在任何类型的偏差,其中某些群体或特征可能 相对于现实世界的普及率而言,代表性不足或过高) 将偏差引入到模型中。

审核模型性能时,您不仅要查看 但要按子组细分结果。例如,如果 我们的救助狗领养模型,以确保公平性, 只关注整体准确率。我们还应该按子群体审核绩效 以确保模型针对每个犬种、年龄段和 尺寸组。

在本单元后面的评估偏差中, 按子群组详细了解用于评估模型的不同方法。