特征组合：Playground 练习

特征组合简介

特征组合是否真的能使模型适应非线性数据？要想了解这一点，试试这项练习。

任务：尝试创建一个手动将以下三个输入特征的权重分离蓝点和橙色点的模型：

如需手动更改体重，请执行以下操作：

请注意，此练习的界面不包含“Step”按钮。这是因为此练习不会迭代训练模型。相反，您需要为模型手动输入“最终”权重。

（答案位于练习正下方。）

如果您为特征组合输入负值，模型会将蓝点与橙色点分开，但预测结果是完全错误的。也就是说，模型会为蓝点预测橙色，为橙色点预测蓝色。

现在我们来使用一些高级特征组合。这个 Playground 练习中的数据集看起来有点像飞镖游戏中的杂乱飞靶，中间是蓝点，外圈是橙色点。

每个 Playground 练习都会直观呈现模型的当前状态。例如，以下是一个可视化图表：

对于模型可视化图表，请注意以下事项：

每个轴表示一个特定地图项。对于垃圾邮件与非垃圾邮件，特征可以是电子邮件中的字数和收件人数量。
注意：适当的轴值取决于特征数据。以上所示的轴值对字数或收件人数量没有意义，因为两者都不是负数。
每个点表示一个数据样本（例如电子邮件）的特征值。
点的颜色表示该示例所属的类别。例如，蓝点可以表示非垃圾邮件，而橙色点可以表示垃圾邮件。
背景颜色表示模型对应该在何处找到该颜色样本的预测。蓝点周围显示蓝色背景表示模型正确地预测了该样本。相反，某个蓝点周围显示橙色背景则表示该模型错误地预测了该样本。
背景的蓝色和橙色部分经过缩放。例如，直观图示的左侧是纯蓝色，但在直观图示的中心则逐渐淡化为白色。您可以将颜色强度看作模型对其猜测结果的自信程度。因此，纯蓝色表示该模型对其猜测结果非常有信心，浅蓝色则表示该模型的置信度较低。（图中所示的模型在预测方面表现不佳。）

使用可视化图表判断模型的进度。（“极佳 — 大多数蓝点都有蓝色背景”或“糟糕！蓝点有橙色背景。” 除了颜色之外，Playground 还会以数字方式显示模型当前的损失。（“哦！损失是上升而不是下降。”

任务 1：运行上述线性模型。花一两分钟时间（但不再是）尝试不同的学习速率设置，看看能否找到任何改进。线性模型能否为此数据集生成有效的结果？

任务 2：现在尝试添加跨产品功能，例如 x₁x₂，尝试优化性能。

任务 3：当您有一个好的模型时，请检查模型输出 Surface（以背景颜色显示）。

（答案位于练习正下方。）

不可以。线性模型无法有效地对此数据集建模。降低学习速率可以减少损失，但损失仍然会收敛于不可接受的高值。

Playground 的数据集是随机生成的。因此，我们的回答未必完全赞同您的答案。事实上，如果您在两次运行之间重新生成数据集，您自己的结果并不一定与之前的运行完全相符。不过，您可以通过执行以下操作获得更好的结果：

模型输出 Surface 看起来不是线性模型。相反，它看起来是椭圆的。