数值数据:多项式转换

有时,当机器学习从业者具备相关领域知识时, 一个变量与另一个变量的平方、立方或其他次方相关 变量,不妨创建一个 合成特征 现有数值特征的基础。

假设数据点分布如下,其中粉色圆圈表示 一个类别或类别(例如某种树)和绿色三角形 其他类别(或树木的种类):

图 17. y=x^2 数据点的分布,在
            以及曲线上方的圆圈
图 17. 无法用行分隔的两个类。

不可能绘制出将两者完全分隔的直线 但也可以绘制出这样的曲线:

图 18.与图 17 相同的图像,只是这次 y=x^2
            这些叠加层可在三角形和
            圈子。
图 18.y = x2 分隔类别。

正如 线性回归模块, 线性方程式描述一个包含一项特征 $x_1$ 的线性模型:

$$y = b + w_1x_1$$

其他功能通过添加条款 \(w_2x_2\)处理, \(w_3x_3\)等

梯度下降法会找到 重量 $w_1$(或重量) \(w_1\)、 \(w_2\)、 \(w_3\)(若有其他功能),可最大限度减少 模型损失。但所显示的数据点不能用线条分隔。 该怎么办?

可以同时保留线性方程允许非线性 方法是定义一个新项 \(x_2\),将其简称为 \(x_1\) 平方:

$$x_2 = x_1^2$$

这种合成特征称为多项式转换, 其他功能上一个线性公式变为:

$$y = b + w_1x_1 + w_2x_2$$

这仍被视为 线性回归 和通过梯度下降法确定的权重,尽管 包含隐藏平方项,即多项式转换。不更改 线性模型的训练方式,添加多项式转换可让 模型使用曲线图分隔数据点 形式 $y = b + w_1x + w_2x^2$。

通常,感兴趣的数值特征会与其本身相乘,即 提升到一定程度。有时,机器学习从业者可以做出明智的猜测 适当的指数。例如,现实生活中的许多关系 均与平方项相关, 包括重力加速度, 光或声音在距离上的衰减和弹性势能。

相关概念 分类数据特征组合, 经常合成两种不同的特征。