Surapprentissage: régularisation L2

Régularisation L2 est une métrique de régularisation courante, qui utilise la formule suivante:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Par exemple, le tableau suivant montre le calcul de L2 pour un modèle avec six pondérations:

Valeur Valeur au carré
w1 0,2 0,04
w2 -0.5 0,25
w3 5.0 25,0
w4 -1,2 1:44
W5 0,3 0.09
w6 -0,1 0,01
    26,83 = total

Notez que les pondérations proches de zéro n'affectent pas la régularisation L2. mais des pondérations élevées peuvent avoir un impact énorme. Par exemple, dans calcul précédent:

  • Une seule pondération (w3) représente environ 93 % de complexité totale.
  • Au total, les cinq autres pondérations ne représentent qu'environ 7 % de complexité totale.

La régularisation L2 entraîne les pondérations vers 0, mais ne les pousse jamais jusqu'à zéro.

Exercices: tester vos connaissances

Si vous utilisez la régularisation L2 lors de l'entraînement d'un modèle, qu'est-ce que la complexité globale du modèle ?
La complexité globale du système va probablement diminuer.
Comme la régularisation L2 incite les pondérations à tendre vers zéro, la complexité globale diminuera probablement.
Il est probable que la complexité globale du modèle constante.
C'est très peu probable.
La complexité globale du modèle va probablement augmenter.
C'est peu probable. Souvenez-vous que la régularisation L2 encourage les pondérations à atteindre zéro.
Si vous utilisez la régularisation L2 lors de l'entraînement d'un modèle, certaines caractéristiques seront supprimées du modèle.
Vrai
Même si la régularisation L2 peut rendre certaines pondérations qu'elles ne soient jamais complètement remises à zéro. Par conséquent, toutes les caractéristiques contribueront toujours à le modèle.
Faux
La régularisation L2 ne pousse jamais les pondérations jusqu'au bout zéro.

Taux de régularisation (lambda)

Comme indiqué, l'entraînement tente de minimiser une certaine combinaison de perte et de complexité:

$$\text{minimize(loss} + \text{ complexity)}$$

Les développeurs de modèles ajustent l'impact global de la complexité sur l'entraînement de modèles en multipliant sa valeur par un scalaire appelé taux de régularisation. Le caractère grec lambda symbolise généralement le taux de régularisation.

Autrement dit, les développeurs de modèles visent à effectuer les opérations suivantes:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Un taux de régularisation élevé:

  • Renforce l'influence de la régularisation, réduisant ainsi les risques surapprentissage.
  • A tendance à produire un histogramme des pondérations du modèle présentant les caractéristiques suivantes : caractéristiques:
    • une distribution normale
    • une pondération moyenne de 0.

Un faible taux de régularisation:

  • Réduit l'influence de la régularisation, augmentant ainsi les chances de surapprentissage.
  • Tend à produire un histogramme des pondérations du modèle avec une distribution plate.

Par exemple, l'histogramme des pondérations du modèle pour un taux de régularisation élevé peut ressembler à la figure 18.

Figure 18. Histogramme des pondérations d'un modèle avec une moyenne de zéro et
            une distribution normale.
Figure 18 : Histogramme de pondération pour un taux de régularisation élevé. La moyenne est nulle. Distribution normale.

 

En revanche, un taux de régularisation faible permet d'obtenir un histogramme plus plat, comme illustré dans la figure 19.

Figure 19. Histogramme des pondérations d'un modèle avec une moyenne égale à zéro
            se situe quelque part entre une distribution plate et une distribution normale
            distribution.
Figure 19 : Histogramme de pondération pour un taux de régularisation faible. La moyenne peut ou non être égale à zéro.

 

Choisir le taux de régularisation

Le taux de régularisation idéal produit un modèle qui se prête bien à la généralisation de nouvelles données jusqu'alors inconnues. Malheureusement, cette valeur idéale dépend des données, Vous devez donc faire quelques des réglages.

Arrêt prématuré: une alternative à la régularisation basée sur la complexité

L'arrêt prématuré est de régularisation qui n'implique pas de calcul de la complexité. L'arrêt prématuré signifie simplement mettre fin à l'entraînement avant que le modèle la convergence totale. Par exemple, vous arrêtez l'entraînement lorsque la courbe de fonction de perte de l'ensemble de validation commence à augmenter (la pente devient positive).

Même si l'arrêt prématuré augmente généralement la perte d'entraînement, il peut diminuer la perte d'évaluation.

L'arrêt prématuré est une forme de régularisation rapide, mais rarement optimale. Il est très peu probable que le modèle obtenu soit aussi performant qu'un modèle entraîné. sur le taux de régularisation idéal.

Trouver l'équilibre entre le taux d'apprentissage et le taux de régularisation

Taux d'apprentissage et de régularisation a tendance à extraire les pondérations les instructions de navigation. Un taux d'apprentissage élevé fait souvent éloigner les pondérations de zéro. un taux de régularisation élevé tire les pondérations vers zéro.

Si le taux de régularisation est élevé par rapport au taux d'apprentissage, les pondérations faibles ont tendance à produire un modèle qui donne de mauvaises prédictions. À l'inverse, si le taux d'apprentissage est élevé par rapport à la régularisation les pondérations fortes ont tendance à produire un modèle de surapprentissage.

Votre objectif est de trouver l'équilibre entre le taux d'apprentissage et le taux de régularisation. Cela peut s'avérer difficile. Le pire de tout, une fois que vous avez trouvé cet équilibre insaisissable, vous devrez peut-être à terme modifier le taux d'apprentissage. Lorsque vous modifiez le taux d'apprentissage, vous devez de nouveau le taux de régularisation.