机器学习速成课程的全新改进版本将于 2024 年 8 月推出。敬请期待!
特征组合简介
特征组合是否真的能使模型适应非线性数据?要想了解这一点,试试这项练习。
任务:尝试创建一个手动将以下三个输入特征的权重分离蓝点和橙色点的模型:
如需手动更改体重,请执行以下操作:
- 点击将 FEATURES 与 OUTPUT 相关联的行。
系统会显示一个输入表单。
- 在该输入表单中输入一个浮点值。
- 按 Enter 键。
请注意,此练习的界面不包含“Step”按钮。这是因为此练习不会迭代训练模型。相反,您需要为模型手动输入“最终”权重。
(答案位于练习正下方。)
点击答案的加号图标。
- w1 = 0
- w2 = 0
- x1 x2 = 1(或任何正值)
如果您为特征组合输入负值,模型会将蓝点与橙色点分开,但预测结果是完全错误的。也就是说,模型会为蓝点预测橙色,为橙色点预测蓝色。
更复杂的特征组合
现在我们来使用一些高级特征组合。
这个 Playground 练习中的数据集看起来有点像飞镖游戏中的杂乱飞靶,中间是蓝点,外圈是橙色点。
点击加号图标可查看模型可视化说明。
每个 Playground 练习都会直观呈现模型的当前状态。例如,以下是一个可视化图表:
对于模型可视化图表,请注意以下事项:
- 每个轴表示一个特定地图项。对于垃圾邮件与非垃圾邮件,特征可以是电子邮件中的字数和收件人数量。
- 每个点表示一个数据样本(例如电子邮件)的特征值。
- 点的颜色表示该示例所属的类别。例如,蓝点可以表示非垃圾邮件,而橙色点可以表示垃圾邮件。
- 背景颜色表示模型对应该在何处找到该颜色样本的预测。蓝点周围显示蓝色背景表示模型正确地预测了该样本。相反,某个蓝点周围显示橙色背景则表示该模型错误地预测了该样本。
- 背景的蓝色和橙色部分经过缩放。例如,直观图示的左侧是纯蓝色,但在直观图示的中心则逐渐淡化为白色。您可以将颜色强度看作模型对其猜测结果的自信程度。因此,纯蓝色表示该模型对其猜测结果非常有信心,浅蓝色则表示该模型的置信度较低。(图中所示的模型在预测方面表现不佳。)
使用可视化图表判断模型的进度。
(“极佳 — 大多数蓝点都有蓝色背景”或“糟糕!蓝点有橙色背景。”
除了颜色之外,Playground 还会以数字方式显示模型当前的损失。(“哦!损失是上升而不是下降。”
任务 1:运行上述线性模型。花一两分钟时间(但不再是)尝试不同的学习速率设置,看看能否找到任何改进。线性模型能否为此数据集生成有效的结果?
任务 2:现在尝试添加跨产品功能,例如 x1x2,尝试优化性能。
任务 3:当您有一个好的模型时,请检查模型输出 Surface(以背景颜色显示)。
- 它看起来像一个线性模型吗?
- 您会如何描述该模型?
(答案位于练习正下方。)
点击加号图标可了解任务 1 的答案。
不可以。线性模型无法有效地对此数据集建模。降低学习速率可以减少损失,但损失仍然会收敛于不可接受的高值。
点击加号图标可了解任务 2 的答案。
Playground 的数据集是随机生成的。因此,我们的回答未必完全赞同您的答案。事实上,如果您在两次运行之间重新生成数据集,您自己的结果并不一定与之前的运行完全相符。不过,您可以通过执行以下操作获得更好的结果:
-
同时使用 x12 和 x22 作为特征组合。(添加 x1x2 作为特征组合似乎没有帮助。)
-
降低学习速率,比如降至 0.001。
点击加号图标可了解任务 3 的答案。
模型输出 Surface 看起来不是线性模型。相反,它看起来是椭圆的。