分类 (Classification):检查您的理解情况(ROC 和 AUC)

ROC 和曲线下面积

查看以下选项。

以下哪一条 ROC 曲线可产生大于 0.5 的曲线下面积值?
ROC 曲线中一条垂直线的范围为 (0,0) 到 (0,1),水平线的范围为 (0,1) 到 (1,1)。对于所有 FP 率,TP 率都是 1.0。

这是最好的 ROC 曲线,因为它将所有正分类排列在负分类之上。曲线下面积为 1.0。

实际上,如果您有一个 AUC 为 1.0 的“完美”分类器,就应该很可疑,因为这可能表示模型中存在错误。例如,您的训练数据可能过拟合,或者标签数据可能复制到其中一个特征中。

ROC 曲线中一条水平线的范围为 (0,0) 到 (1,0),一条垂直线的范围为 (1,0) 到 (1,1)。对于所有 TP 率,FP 率都是 1.0
这是可能出现的最差 ROC 曲线;它会将所有负分类排列在所有正分类之上,并且其曲线下面积为 0.0。如果要将每个预测进行逆转(将负例翻转为正例,并从正例到负例),您实际上有一个完美的分类器!
一条对角线从 (0,0) 到 (1,1) 的 ROC 曲线。TP 和 FP 率以相同的速率线性增加。
此 ROC 曲线的曲线下面积为 0.5,这意味着它在 50% 的情况下将某个随机正分类样本排列在某个随机负分类样本之上。因此,相应的分类模型基本上毫无价值,因为其预测能力并不比随机猜测更好。
从 (0,0) 指向 (1,1) 的弧线上升的 ROC 曲线。TP 率以高于 FP 的速率增长。
此 ROC 曲线的曲线下面积介于 0.5 和 1.0 之间,这意味着它在超过 50% 的情况下会将某个随机正分类样本排列在某个随机负分类样本之上。现实中的二元分类 AUC 值通常属于此范围。
从右侧 (0,0) 向上延伸到 (1,1) 的 ROC 曲线。FP 率以高于 TP 的速率增长。
此 ROC 曲线的曲线下面积介于 0 到 0.5 之间,这意味着它在低于 50% 的情况下将某个随机正分类样本排列在某个随机负分类样本之上。实际上,这个模型的表现比随机猜测要差!如果您看到这样的 ROC 曲线,可能表示您的数据中存在错误。

AUC 和扩缩预测结果

查看以下选项。

将给定模型的所有预测结果乘以 2.0(例如,如果模型预测的结果为 0.4,我们将其乘以 2.0 得到 0.8),这会使通过 AUC 衡量的模型效果如何?
没有变化。曲线下面积只关注相对预测分数。
是,曲线下面积基于相对预测,因此保留相对排名的预测的任何转换都不会影响 AUC。其他指标(例如平方误差、对数损失或预测偏差)则不然。
这会导致 AUC 很差,因为预测值现在相差很大。
有趣的是,即使预测值不同(可能更接近真实值),将这些值乘以 2.0 会使预测值的相对顺序保持不变。由于 AUC 只关心相对排名,因此它不会受到任何简单的预测扩缩的影响。
这会使曲线下面积变得更好,因为预测值之间相差很大。
预测结果之间的差距实际上不会影响 AUC。即使是随机抽取的正类别的预测分数也只是一个大于随机抽取的负类别的微小百分号,这就表示对总体 AUC 得分有贡献。