公平性:评估偏差

在评估模型时,根据整个测试集或验证集计算得出的指标并不能准确反映模型的公平性。

我们以一个针对 1000 名患者记录验证集进行评估的新模型开发,以预测是否有肿瘤。500 条记录来自女性患者,500 条记录来自男性患者。以下混淆矩阵总结了这 1000 个样本的结果:

真正例 (TP):16 假正例 (FP):4
假负例 (FN):6 真负例 (TN):974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

这些结果看起来很不错:精确率为 80%,召回率为 72.7%。但是,如果我们分别针对每组患者计算结果呢?我们将结果分成两个单独的混淆矩阵:一个针对女性患者,另一个针对男性患者。

女性患者结果

真正例 (TP):10 假正例 (FP):1
假负例 (FN):1 真负例 (TN):488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

男性患者结果

真正例 (TP):6 假正例 (FP):3
假负例 (FN):5 真负例 (TN):486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

分别针对女性患者和男性患者计算指标时,我们发现每组的模型性能存在显著差异。

女性患者:

  • 在实际有肿瘤的 11 名女性患者中,该模型为 10 名患者正确预测了阳性(召回率:90.9%)。换句话说,在女性病例中,该模型漏诊肿瘤的概率为 9.1%

  • 同样,如果女性患者的肿瘤结果为阳性,在 11 个病例中,有 10 个预测正确的(精确率为 90.9%);换言之,在女性病例中,该模型预测的肿瘤率为 9.1%

男性患者:

  • 然而,在实际有肿瘤的 11 名男性患者中,该模型仅针对 6 名患者正确预测了阳性(召回率:54.5%)。这意味着,在男性病例中,该模型漏诊肿瘤的概率为 45.5%

  • 当该模型预测男性患者有肿瘤时,在 9 个病例中只有 6 个预测正确(精确率为 66.7%)。换句话说,在男性病例中,该模型预测肿瘤的错误率为 33.3%

现在,我们更好地了解了模型预测的固有偏差,以及如果模型将发布给公众以供医疗使用,那么每个子组可能面临的风险也得到了深入了解。

更多公平性资源

公平性是机器学习领域相对较新的一个子领域。如需详细了解致力于开发新工具和技术来识别和减少机器学习模型偏差的研究和计划,请访问 Google 的机器学习公平性资源页面