此页面由 Cloud Translation API 翻译。

公平性：识别偏见

在准备数据以进行模型训练和评估时，请务必考虑公平性问题，并审核是否存在可能导致出现偏差的潜在来源，以便在将模型发布到生产环境之前主动减少其影响。

偏见可能存在于哪些方面？以下是数据集中需要注意的一些危险信号。

缺少特征值

如果您的数据集中有一个或多个特征缺少大量样本数据，那么这可能表明数据集中的某些关键特性未得到充分代表。

您要训练一个模型，以便根据各种特征（包括品种、年龄、体重、性情和每天脱落的毛发数量）预测救助犬的适合度。您的目标是确保模型对所有类型的狗狗都具有相同的效果，无论它们的身体或行为特征如何

您发现训练集中的 5,000 个示例中有 1,500 个缺少气质值。以下哪些是潜在的偏见来源，您应该调查？

某些犬种更有可能缺少性情数据。

如果狗的品种与是否有性情数据相关，那么这可能会导致系统对某些狗狗的适合领养程度预测不准确。

年龄在 12 个月以下的狗狗更可能缺少温度数据

如果性情数据的可用性与年龄相关，那么与成年犬相比，幼犬的可领养性预测结果可能会不太准确。

所有从大城市救出的狗狗的性情数据都缺失。

乍一看，这似乎并不是潜在的偏见来源，因为缺失的数据会对大城市的所有狗狗造成同等的影响，而不考虑其品种、年龄、体重等。不过，我们仍然需要考虑狗狗的来源地是否可有效代表这些身体特征。例如，如果来自大城市的狗狗比来自更多农村地区的狗狗要小得多，则可能会导致对低体重狗或某些小狗品种的领养性预测不太准确。

数据集中随机缺少性情数据。

如果气质数据确实是随机缺失的，那么这不会成为潜在的偏差来源。不过，情绪数据可能会随机缺失，但进一步调查可能会揭示差异的原因。因此，请务必进行全面检查，排除其他可能性，而不是假定数据缺口是随机的。

在探索数据时，您还应查找包含明显非典型或异常特征值的样本。这些意外的特征值可能表明数据收集期间出现了问题，或者存在其他可能导致偏差的不准确性。

查看以下用于训练救援狗可领性模型的以下假设示例集。

品种	年龄（年）	重量（磅）	性情	shedding_level
玩具贵宾犬	2	12	易激动	低价
金毛寻回犬	7	65	平静	高价
拉布拉多猎犬	35	73	平静	高价
法国斗牛犬	0.5	11	平静	medium
未知混血	4	45	兴奋	高价
巴吉度猎犬	9	48	平静	medium

您能否发现特征数据存在任何问题？

点击此处查看答案

品种	年龄（年）	重量（磅）	性情	shedding_level
玩具贵宾犬	2	12	易激动	低价
金毛寻回犬	7	65	平静	高价
拉布拉多猎犬	35	73	平静	高价
法国斗牛犬	0.5	11	平静	medium
未知混血	4	45	兴奋	高价
巴吉度猎犬	9	48	平静	medium

吉尼斯世界纪录认证过的最长寿狗是澳大利亚牧牛犬 Bluey，它活了 29 年零 5 个月。鉴于此，这只拉布拉多犬实际上 35 岁的说法似乎不太可信，更有可能是狗的年龄计算或记录有误（狗可能实际上只有 3.5 岁）。此错误还可能表明数据集中的年龄数据存在更广泛的准确性问题，需要进一步调查。

数据倾斜是指相对于实际的发生率而言，某些小组或特性未得到充分代表或得到过度代表；如果您的数据存在任何形式的倾斜，便可能会在模型中引入偏差。

审核模型性能时，不仅要按汇总查看结果，还要按子组查看结果。例如，在我们的救助犬领养资格模型中，仅查看整体准确性不足以确保公平性。我们还应按子群组审核效果，以确保模型对每种狗狗品种、年龄段和大小群组的预测效果均不相上下。

在本单元稍后的评估偏差部分，我们将详细介绍按子群组评估模型的不同方法。