本单元介绍了如何使用逻辑回归来处理分类任务,并探讨了如何评估分类模型的效果。
分类
分类与回归
- 有时,我们会针对逻辑输出使用逻辑回归,这是 (0,1) 中的回归
- 在其他时候,我们会对离散二元分类的值设定阈值
- 阈值的选择非常重要,可以进行调整
评估指标:准确率
- 如何评估分类模型?
评估指标:准确率
- 如何评估分类模型?
- 可能的衡量标准如下:准确率
- 我们所做的正确预测所占的比例
准确性可能会造成误导
- 在许多情况下,准确性是一个较差或具有误导性的指标
- 最常是在不同类型的错误具有不同的代价时
- 典型情况包括类别不平衡,即正类别或负类别极其罕见时
真正例和假正例
- 对于类不平衡问题,有助于区分不同类型的错误
真正例 我们正确称为“狼”! 我们拯救了这个小镇。 |
假正例 错误:我们错误地调用了狼。 所有人都对我们很生气。 |
假负例 有一头狼,但我们没有发现它。它把我们的所有鸡都吃了。 |
真负例 没有狼,也没有闹钟。 每个人都没事。 |
评估指标:精确率和召回率
- 精确率:(真正例次数)/(所有正类别预测次数)
- 当模型说“正”类别时,对吗?
- 直觉:模型是否过于频繁地大喊“狼来了”?
评估指标:精确率和召回率
- 精确率:(真正例次数)/(所有正类别预测次数)
- 当模型说“正”类别时,对吗?
- 直觉:模型是否过于频繁地大喊“狼来了”?
- 召回率:(真正例次数)/(所有实际正例次数)
- 在所有可能的正类别中,模型正确识别了多少个?
- 直觉:是否漏掉了任何“狼”?
完成后,请按“播放”▶ 继续
查看以下选项。
让我们以一种将电子邮件分为“垃圾邮件”或“非垃圾邮件”这两种类别的分类模型为例。如果提高分类阈值,精确率会怎样?
当然会提高。
提高分类阈值通常会提高精确率;但是,随着我们提高阈值,精确率不一定会单调提高。
可能会提高。
一般来说,提高分类阈值会减少假正例,从而提高精确率。
可能会减少。
一般来说,提高分类阈值会减少假正例,从而提高精确率。
当然会降低。
一般来说,提高分类阈值会减少假正例,从而提高精确率。
ROC 曲线
每个点都是一个决策阈值的 TP 率和 FP 率。
评估指标:曲线下面积
- AUC:“ROC 曲线下面积”
评估指标:曲线下面积
- AUC:“ROC 曲线下面积”
- 解读:
- 如果随机选择一个正类别和一个随机负类别,我的模型以正确顺序排列它们的概率是多少?
评估指标:曲线下面积
- AUC:“ROC 曲线下面积”
- 解读:
- 如果随机选择一个正类别和一个随机负类别,我的模型以正确顺序排列它们的概率是多少?
- 直觉:针对所有可能的分类阈值提供汇总的效果衡量信息
预测偏差
- 逻辑回归预测应该无偏差。
- 预测平均值 == 观察结果的平均值
预测偏差
- 逻辑回归预测应该无偏差。
- 预测平均值 == 观察结果的平均值
- 偏差是一个 Canary 版。
- 仅零偏差并不意味着系统中的所有内容都完美无缺。
- 但这是一个很好的健全性检查。
预测偏差(续)
- 如果您有偏见,则会遇到问题。
- 功能集不完整?
- 管道有问题?
- 有偏见的训练样本?
- 请勿通过校准层来修复偏差,请在模型中予以修正。
- 在数据切片中查找偏差 - 这有助于改进。