降低损失 (Reducing Loss)：学习速率

如上所述，梯度矢量同时具有方向和大小。梯度下降法算法会将梯度乘以称为“学习速率”（有时也称为“步长”）的标量，以确定下一个点。例如，如果梯度大小为 2.5 且学习速率为 0.01，则梯度下降法算法会选择距离前一个点 0.025 的下一个点。

超参数是编程人员在机器学习算法中用于调整的旋钮。大多数机器学习程序员都会花费大量时间来调整学习速率。如果您选择的学习速率过小，则学习将会花费太长时间：

图 6. 学习速率过小。

相反，如果您指定的学习速率过大，则下一个点将永远在井底随意弹跳，就像量子力学实验大错一样：

图 7. 学习速率过高。

每个回归问题都存在一个金发姑娘学习速率。“金发姑娘”值与损失函数的平坦程度有关。如果您知道损失函数的梯度较小，则可以放心地尝试较大的学习速率，以抵消小的梯度，从而产生较大的步长。

图 8. 学习速率恰到好处。

一维空间中的理想学习速率是 \(\frac{ 1 }{ f''(x) }\) （f(x) 对 x 的二次导数的逆）。

二维或多维空间中的理想学习速率是海森矩阵（二阶偏导数的矩阵）的倒数。

广义凸函数的情况则更加复杂。