线性回归

本单元介绍线性回归概念。

线性回归是一种 用于找出各个变量之间的关系的统计技术。在机器学习中 线性回归模型会找出 功能label

例如,假设我们要预测汽车的燃油效率(以英里/英里为单位) 根据汽车的重量确定加仑,我们有以下数据集:

千磅(功能) 英里/加仑 (标签)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

如果我们绘制这些点,就会得到以下图表:

图 1. 显示从左到右向下倾斜趋势的数据点。

图 1. 汽车重量(以磅为单位)与每加仑英里数的评级。作为 汽车越重,每加仑英里数的评级通常会降低。

我们可以通过这些点绘制一条最适合的直线来创建自己的模型:

图 2. 数据点以及最适合的线条绘制而成,用于代表模型。

图 2. 上图数据绘制的最适合的线条。

线性回归方程

用代数术语来说,模型的定义为 $ y = mx + b $,其中

  • $ y $ 表示每加仑英里数,即我们想要预测的值。
  • $ m $ 是直线的斜率。
  • $ x $ 是磅,即我们的输入值。
  • $ b $ 为 y 轴截距。

在机器学习中,我们编写线性回归模型的方程式,如下所示:

$$ y' = b + w_1x_1 $$

其中:

  • $ y'$ 是预测标签,即输出。
  • $ b $ 是偏差 模型。偏差与代数中 y 截距的概念相同 直线方程。在机器学习中,偏差有时称为 $ w_0 $。偏差 是一个模型的参数,而 都是在训练期间计算的。
  • $ w_1 $ 是权重 功能。权重与代数中斜率 $ m $ 的概念相同 直线方程。权重为 参数,是 在训练期间计算的。
  • $ x_1 $ 是一项特征,即 输入。

在训练期间,模型会计算可产生最佳结果的权重和偏差 模型。

图 3. 方程式 y'= b + w1x1,其中每个组件均标有其用途。

图 3. 线性模型的数学表示法。

在我们的示例中,我们根据绘制的线条计算权重和偏差。通过 偏差为 30(其中直线与 y 轴相交),权重为 -3.6( 直线的斜率)。该模型将定义为 $ y'= 30 + (-3.6)(x_1) $,以及 就可以用它来进行预测了。例如,使用此模型时, 4000 磅的汽车预计燃油效率为每辆 15.6 英里 加仑。

图 4. 与图 2 相同,其中突出显示了点 (4, 15.6)。

图 4. 使用该模型,一辆 4000 磅重的汽车 燃油效率为每加仑 15.6 英里。

具有多个特征的模型

虽然本部分中的示例仅使用了一项功能,即重量级 汽车的特征,更复杂的模型可能依赖于多种特征, 每个都有单独的重量($ w_1 $、$ w_2 $ 等)。例如,一个模型 可以写如下:

$ y'= b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

例如,预测汽油里程的模型还可以额外使用特征 例如:

  • 发动机排量
  • 加速性能
  • 汽缸数
  • 马力

此模型的编写方式如下:

图 5. 包含五个特征的线性回归方程。

图 5. 一个具有五个特征的模型,用于预测汽车每加仑的英里数 评分。

通过绘制一些附加特征的图表,可以看出它们在 与标签的线性关系(每加仑英里数):

图 6. 以立方厘米为单位的位移以每加仑英里数绘制,显示负的线性关系。

图 6. 汽车的排量(以立方厘米为单位加每加仑的英里数) 评分。汽车的引擎加大了,每加仑的英里数评级通常 。

图 7. 根据每加仑英里数绘制的加速度在 0 到 60 秒之间绘制成正线性关系。

图 7. 汽车的加速度和每加仑英里数的评级。作为汽车 加速用时越长,每加仑英里数的评级通常会提高。

图 8. 马力图表与每加仑英里数绘制负的线性关系。

图 8. 汽车的马力和每加仑英里数的评级。作为汽车 马力增加,每加仑英里数的评级通常会降低。

练习:检查您的理解情况

在训练期间会更新线性回归方程的哪些部分?
偏差和权重
在训练期间,模型会更新偏差, 计算权重。
预测
在训练期间,预测结果不会更新。
特征值
特征值是数据集的一部分,因此不会更新 。