机器学习速成课程的全新改进版本将于 2024 年 8 月推出。敬请期待！

此页面由 Cloud Translation API 翻译。

分类

本单元介绍了如何使用逻辑回归来处理分类任务，并探讨了如何评估分类模型的效果。

分类

分类与回归

有时，我们会针对逻辑输出使用逻辑回归，这是 (0,1) 中的回归
在其他时候，我们会对离散二元分类的值设定阈值
阈值的选择非常重要，可以进行调整

评估指标：准确率

如何评估分类模型？

评估指标：准确率

如何评估分类模型？
可能的衡量标准如下：准确率
- 我们所做的正确预测所占的比例

准确性可能会造成误导

在许多情况下，准确性是一个较差或具有误导性的指标
- 最常是在不同类型的错误具有不同的代价时
- 典型情况包括类别不平衡，即正类别或负类别极其罕见时

真正例和假正例

对于类不平衡问题，有助于区分不同类型的错误

真正例我们正确称为“狼”！我们拯救了这个小镇。	假正例错误：我们错误地调用了狼。所有人都对我们很生气。
假负例有一头狼，但我们没有发现它。它把我们的所有鸡都吃了。	真负例没有狼，也没有闹钟。每个人都没事。

评估指标：精确率和召回率

精确率：（真正例次数）/（所有正类别预测次数）

当模型说“正”类别时，对吗？
直觉：模型是否过于频繁地大喊“狼来了”？

评估指标：精确率和召回率

精确率：（真正例次数）/（所有正类别预测次数）

当模型说“正”类别时，对吗？
直觉：模型是否过于频繁地大喊“狼来了”？

召回率：（真正例次数）/（所有实际正例次数）

在所有可能的正类别中，模型正确识别了多少个？
直觉：是否漏掉了任何“狼”？

完成后，请按“播放”&#x25b6 继续

查看以下选项。

让我们以一种将电子邮件分为“垃圾邮件”或“非垃圾邮件”这两种类别的分类模型为例。如果提高分类阈值，精确率会怎样？

当然会提高。

提高分类阈值通常会提高精确率；但是，随着我们提高阈值，精确率不一定会单调提高。

可能会提高。

一般来说，提高分类阈值会减少假正例，从而提高精确率。

可能会减少。

一般来说，提高分类阈值会减少假正例，从而提高精确率。

当然会降低。

一般来说，提高分类阈值会减少假正例，从而提高精确率。

ROC 曲线

每个点都是一个决策阈值的 TP 率和 FP 率。

评估指标：曲线下面积

AUC：“ROC 曲线下面积”

评估指标：曲线下面积

AUC：“ROC 曲线下面积”
解读：

如果随机选择一个正类别和一个随机负类别，我的模型以正确顺序排列它们的概率是多少？

评估指标：曲线下面积

AUC：“ROC 曲线下面积”
解读：

如果随机选择一个正类别和一个随机负类别，我的模型以正确顺序排列它们的概率是多少？

直觉：针对所有可能的分类阈值提供汇总的效果衡量信息

预测偏差

逻辑回归预测应该无偏差。

预测平均值 == 观察结果的平均值

预测偏差

逻辑回归预测应该无偏差。

预测平均值 == 观察结果的平均值

偏差是一个 Canary 版。

仅零偏差并不意味着系统中的所有内容都完美无缺。
但这是一个很好的健全性检查。

预测偏差（续）

如果您有偏见，则会遇到问题。

功能集不完整？
管道有问题？
有偏见的训练样本？

请勿通过校准层来修复偏差，请在模型中予以修正。
在数据切片中查找偏差 - 这有助于改进。

校准图表显示分桶偏差

损失和正则化

阈值

真正例我们正确称为“狼”！我们拯救了这个小镇。	假正例错误：我们错误地调用了狼。所有人都对我们很生气。
假负例有一头狼，但我们没有发现它。它把我们的所有鸡都吃了。	真负例没有狼，也没有闹钟。每个人都没事。