Comme indiqué, le vecteur de gradient a à la fois une direction et une magnitude. Les algorithmes de descente de gradient multiplient le gradient par une valeur scalaire appelée taux d'apprentissage (parfois également appelé pas de taille de pas) pour déterminer le point suivant. Par exemple, si la magnitude du gradient est de 2,5 et que le taux d'apprentissage est de 0,01, l'algorithme de descente de gradient choisira le point suivant situé à 0,025 du point précédent.
Les hyperparamètres sont les commandes que les programmeurs ajustent dans les algorithmes de machine learning. La plupart des programmeurs en ML passent beaucoup de temps à régler le taux d'apprentissage. Si vous choisissez un taux d'apprentissage trop faible, l'apprentissage prendra trop de temps:
Figure 6. Le taux d'apprentissage est trop faible.
À l'inverse, si vous spécifiez un taux d'apprentissage trop élevé, le point suivant rebondira perpétuellement à travers le fond du puits, comme une expérience en mécanique quantique tourné de façon catastrophique:
Figure 7. Taux d'apprentissage trop élevé.
Il existe un taux d'apprentissage idéal pour chaque problème de régression. La valeur de Boucle d'or est liée à l'équilibre de la fonction de perte. Si vous savez que le gradient de la fonction de perte est faible, vous pouvez essayer sans problème un taux d'apprentissage plus important, qui compense le faible gradient et augmente la taille de pas.
Figure 8. Le taux d'apprentissage est idéal.