分类

本单元介绍了如何使用逻辑回归来处理分类任务,并探讨了如何评估分类模型的效果。

分类

  • 有时,我们会针对逻辑输出使用逻辑回归,这是 (0,1) 中的回归
  • 在其他时候,我们会对离散二元分类的值设定阈值
  • 阈值的选择非常重要,可以进行调整
  • 如何评估分类模型?
  • 如何评估分类模型?
  • 可能的衡量标准如下:准确率
    • 我们所做的正确预测所占的比例
  • 在许多情况下,准确性是一个较差或具有误导性的指标
    • 最常是在不同类型的错误具有不同的代价时
    • 典型情况包括类别不平衡,即正类别或负类别极其罕见时
  • 对于类不平衡问题,有助于区分不同类型的错误
真正例
我们正确称为“狼”!
我们拯救了这个小镇。

假正例
错误:我们错误地调用了狼。
所有人都对我们很生气。

假负例
有一头狼,但我们没有发现它。它把我们的所有鸡都吃了。
真负例
没有狼,也没有闹钟。
每个人都没事。

  • 精确率:(真正例次数)/(所有正类别预测次数)
    • 当模型说“正”类别时,对吗?
    • 直觉:模型是否过于频繁地大喊“狼来了”?
  • 精确率:(真正例次数)/(所有正类别预测次数)
    • 当模型说“正”类别时,对吗?
    • 直觉:模型是否过于频繁地大喊“狼来了”?
  • 召回率:(真正例次数)/(所有实际正例次数)
    • 在所有可能的正类别中,模型正确识别了多少个?
    • 直觉:是否漏掉了任何“狼”?

查看以下选项。

让我们以一种将电子邮件分为“垃圾邮件”或“非垃圾邮件”这两种类别的分类模型为例。如果提高分类阈值,精确率会怎样?
当然会提高。
提高分类阈值通常会提高精确率;但是,随着我们提高阈值,精确率不一定会单调提高。
可能会提高。
一般来说,提高分类阈值会减少假正例,从而提高精确率。
可能会减少。
一般来说,提高分类阈值会减少假正例,从而提高精确率。
当然会降低。
一般来说,提高分类阈值会减少假正例,从而提高精确率。

每个点都是一个决策阈值的 TP 率和 FP 率。

ROC 曲线显示了不同分类阈值下的 TP 率与 FP 率。
  • AUC:“ROC 曲线下面积”
  • AUC:“ROC 曲线下面积”
  • 解读:
    • 如果随机选择一个正类别和一个随机负类别,我的模型以正确顺序排列它们的概率是多少?
  • AUC:“ROC 曲线下面积”
  • 解读:
    • 如果随机选择一个正类别和一个随机负类别,我的模型以正确顺序排列它们的概率是多少?
  • 直觉:针对所有可能的分类阈值提供汇总的效果衡量信息
  • 逻辑回归预测应该无偏差。
    • 预测平均值 == 观察结果的平均值
  • 逻辑回归预测应该无偏差。
    • 预测平均值 == 观察结果的平均值
  • 偏差是一个 Canary 版。
    • 仅零偏差并不意味着系统中的所有内容都完美无缺。
    • 但这是一个很好的健全性检查。
  • 如果您有偏见,则会遇到问题。
    • 功能集不完整?
    • 管道有问题?
    • 有偏见的训练样本?
  • 请勿通过校准层来修复偏差,请在模型中予以修正。
  • 在数据切片中查找偏差 - 这有助于改进。
校准曲线