数值数据:多项式转换

有时,当机器学习从业者具备相关领域知识时, 一个变量与另一个变量的平方、立方或其他次方相关 变量,不妨创建一个 合成特征 现有数值特征的基础。

假设数据点分布如下,其中粉色圆圈表示 一个类别或类别(例如某种树)和绿色三角形 其他类别(或树木的种类):

图 17. y=x^2 数据点的分布,在
            以及曲线上方的圆圈
图 17. 无法用行分隔的两个类。

不可能绘制出将两者完全分隔的直线 但也可以绘制出这样的曲线:

图 18.与图 17 相同的图像,只是这次 y=x^2
            这些叠加层可在三角形和
            圈子。
图 18.y = x2 分隔类别。

正如 线性回归模块, 线性方程式描述一个包含一项特征 x1 的线性模型:

y=b+w1x1

其他功能通过添加条款 w2x2处理, w3x3

梯度下降法会找到 重量 w1(或重量) w1w2w3(若有其他功能),可最大限度减少 模型损失。但所显示的数据点不能用线条分隔。 该怎么办?

可以同时保留线性方程允许非线性 方法是定义一个新项 x2,将其简称为 x1 平方:

x2=x12

这种合成特征称为多项式转换, 其他功能上一个线性公式变为:

y=b+w1x1+w2x2

这仍被视为 线性回归 和通过梯度下降法确定的权重,尽管 包含隐藏平方项,即多项式转换。不更改 线性模型的训练方式,添加多项式转换可让 模型使用曲线图分隔数据点 形式 y=b+w1x+w2x2

通常,感兴趣的数值特征会与其本身相乘,即 提升到一定程度。有时,机器学习从业者可以做出明智的猜测 适当的指数。例如,现实生活中的许多关系 均与平方项相关, 包括重力加速度, 光或声音在距离上的衰减和弹性势能。

相关概念 分类数据特征组合, 经常合成两种不同的特征。