Régularisation à des fins de simplicité: lambda

Les développeurs de modèles ajustent l'impact global du terme de régularisation en multipliant sa valeur par une valeur scalaire appelée lambda (également appelée taux de régularisation). Autrement dit, les développeurs de modèles ont pour objectif d'effectuer les opérations suivantes:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

La régularisation L2 a l'effet suivant sur un modèle

  • Les valeurs de pondération se rapprochent de 0 (mais pas exactement 0)
  • La moyenne des pondérations tend vers 0, avec une distribution normale (en cloche ou gaussienne).

Augmenter la valeur du lambda renforce l'effet de la régularisation. Par exemple, l'histogramme des pondérations pour une valeur élevée de lambdas peut ressembler à la figure 2.

Histogramme des pondérations d'un modèle avec une moyenne de zéro et une distribution normale.

Figure 2 Histogramme des pondérations

La réduction de la valeur du lambda tend à donner un histogramme plus plat, comme illustré dans la figure 3.

Histogramme des pondérations d'un modèle avec une moyenne de zéro qui se situe quelque part entre une distribution plate et une distribution normale.

Figure 3. Histogramme des pondérations générés par une valeur lambda inférieure

Lorsque vous choisissez une valeur lambda, l'objectif est de trouver le bon équilibre entre simplicité et adéquation des données d'entraînement:

  • Si le lambda est trop élevé, le modèle sera simple, mais il présentera un risque de sous-apprentissage de vos données. Votre modèle n'en apprendra pas assez sur les données d'entraînement pour réaliser des prédictions utiles.

  • Si le lambda est trop faible, le modèle sera plus complexe, et il présentera un risque de surapprentissage des données. Votre modèle apprendra trop sur les particularités des données d'entraînement et ne pourra pas être généralisé à de nouvelles données.

La valeur idéale du lambda produit un modèle qui se généralise bien à de nouvelles données qui n'étaient pas visibles auparavant. Malheureusement, cette valeur idéale de lambda dépend des données. Vous devez donc effectuer un réglage.