深入了解机器学习:线性回归

长久以来,人们都知道板球(昆虫物种)在天气炎热的日子里会比在更冷的日子里鸣叫。数十年来,专业和业余科学家一直在编制每分钟的鸣叫声和温度方面的数据。Ruth 大姨妈给您送上生日祝福,送上一份生日礼物,邀请您学习一个模型来预测这种关系。 您想利用这些数据来探索这种关系。

首先,通过绘制数据的方式检查数据:

每分钟的鸣叫声(x 轴)与温度(y 轴)的原始数据。

图 1. 每分钟的鸣叫声与温度(以摄氏度为单位)。

如您所料,该图表显示了温度随着鸣叫声次数的增加而上升。 鸣叫声与温度之间的关系是线性关系吗?可以,您可以绘制一条直线来大致说明这种关系:

每分钟的鸣叫声(x 轴)与温度(y 轴)之间的最佳关联。

图 2. 一种线性关系。

没错,虽然这个直线并未穿过每一个点,但清晰地显示了鸣叫声和温度之间的关系。使用直线的等式,您可以写出这种关系,如下所示:

$$ y = mx + b $$

其中:

  • \(y\) 是摄氏度,即我们正在尝试预测的值。
  • \(m\) 是直线的斜率。
  • \(x\) 是每分钟的鸣叫声次数,即输入特征的值。
  • \(b\) 是 y 轴截距。

按照机器学习的惯例,您为模型算式的过程会略有不同:

$$ y' = b + w_1x_1 $$

其中:

  • \(y'\) 是预测的标签(理想输出)。
  • \(b\) 是偏差(y 轴截距),有时称为 \(w_0\)。
  • \(w_1\) 是特征 1 的权重。权重与传统线方程中的“斜率” \(m\) 概念相同。 \(m\)
  • \(x_1\) 是一项功能(已知输入)。

如需根据新的每分钟的鸣叫声值 \(y'\) 推断温度,只需将 \(x_1\) 值替换为此模型即可。 \(y'\) \(x_1\)\(x_1\)

虽然此模型仅使用一个特征,但更复杂的模型可能依赖于多个特征,每个特征都有单独的权重(\(w_1\)、 \(w_2\)等)。例如,一个依赖于三个特征的模型可能如下所示:

$$y' = b + w_1x_1 + w_2x_2 + w_3x_3$$