分类 (Classification)

此单元介绍了如何使用逻辑回归来执行分类任务,并探讨了如何评估分类模型的有效性。

分类

  • 有时,我们会使用逻辑回归(一种介于 (0, 1) 之间的回归)来获得概率输出。
  • 在其他时候,我们会对离散二元分类的值设定阈值
  • 阈值的选择非常重要,我们可以对阈值进行调整
  • 如何评估分类模型?
  • 如何评估分类模型?
  • 一种可能的衡量指标:准确率
    • 正确的预测所占的比例
  • 在很多情况下,准确率是一个欠佳或具有误导性的指标
    • 最常是在不同类型的错误具有不同的代价时
    • 典型情况包括分类不平衡,即正类别或负类别极其罕见时
  • 对于分类不平衡问题,区分不同类型的错误会有所帮助
真正例
我们正确地提醒了狼的出现!
我们拯救了小镇。

假正例
错误:我们错误地提醒了狼的出现。
所有人都对我们非常生气。

假负例
确实有一头狼出现了,但我们没有发现它。狼吃光了我们所有的鸡。
真负例
没有狼出现,也没有提醒。
大家都相安无事。

  • 精确率:(真正例次数)/(所有正类别预测次数)
    • 当模型的预测为“正”类别时,预测正确吗?
    • 直觉:模型是否过于频繁地提醒说“狼来了”?
  • 精确率:(真正例次数)/(所有正类别预测次数)
    • 当模型的预测为“正”类别时,预测正确吗?
    • 直觉:模型是否过于频繁地提醒说“狼来了”?
  • 召回率:(真正例次数)/(所有实际正类别数)
    • 在所有可能的正类别中,模型正确地识别出了多少?
    • 直觉:是否漏掉了任何“狼来了”的情况?

查看以下选项。

让我们以一种将电子邮件分为“垃圾邮件”或“非垃圾邮件”这两种类别的分类模型为例。如果提高分类阈值,精确率会怎样?
一定会提高。
提高分类阈值通常会使精确率提高;不过,精确率并不一定会随着阈值的提高单调递增。
可能会提高。
一般来说,提高分类阈值会减少假正例,从而提高精确率。
可能会降低。
一般来说,提高分类阈值会减少假正例,从而提高精确率。
一定会降低。
一般来说,提高分类阈值会减少假正例,从而提高精确率。

每个点都是一个判定阈值所对应的 TP 率和 FP 率。

ROC 曲线中的一条曲线显示了不同分类阈值下的 TP 率与 FP 率。
  • 曲线下面积:“ROC 曲线下面积”
  • 曲线下面积:“ROC 曲线下面积”
  • 解释:
    • 如果随机选择一个正类别样本和一个负类别样本,我的模型能够以正确顺序排列它们的概率是多少?
  • 曲线下面积:“ROC 曲线下面积”
  • 解释:
    • 如果随机选择一个正类别样本和一个负类别样本,我的模型能够以正确顺序排列它们的概率是多少?
  • 直觉:对所有可能的分类阈值的汇总效果进行综合衡量
  • 逻辑回归预测应当无偏差。
    • 预测平均值 == 观察平均值
  • 逻辑回归预测应当无偏差。
    • 预测平均值 == 观察平均值
  • 偏差是一个具有指示作用的值。
    • 仅仅是零偏差并不能说明您系统中的一切都完美无缺。
    • 但偏差是一项非常实用的健全性检查项目。
  • 如果出现偏差,则说明存在问题。
    • 特征集不完整?
    • 模型实现流水线中有错误?
    • 训练样本有偏差?
  • 请勿使用校准层来修正偏差,而应在模型中予以修正。
  • 查看各部分数据中是否存在偏差 - 这有助于指导如何进行改进。
校准曲线