Surapprentissage: interpréter les courbes de fonction de perte

Le machine learning serait beaucoup plus simple si toutes vos courbes de perte se présentaient comme suit la première fois que vous entraînez votre modèle:

Figure 20. Graphique montrant la courbe de perte idéale lors de l'entraînement d'un modèle de machine learning. La courbe de perte représente la perte sur l'axe Y par rapport au nombre d'étapes d'entraînement sur l'axe X. À mesure que le nombre d'étapes d'entraînement augmente, la perte commence à un niveau élevé, puis diminue de manière exponentielle et finit par s'aplatir pour atteindre une perte minimale.
Figure 20 : Courbe de fonction de perte idéale.

Malheureusement, les courbes de perte sont souvent difficiles à interpréter. Utilisez votre intuition concernant les courbes de perte pour résoudre les exercices de cette page.

Exercice 1: Courbe de perte oscillante

Figure 21. Courbe de perte (perte sur l'axe Y, nombre d'étapes d'entraînement sur l'axe X) dans laquelle la perte ne s'aplatit pas.
            Au lieu de cela, la perte oscille de manière erratique.
Figure 21 : Courbe de fonction de perte oscillante.
Quelles trois actions pouvez-vous entreprendre pour essayer d'améliorer la courbe de perte illustrée à la figure 21 ?
Comparez vos données à un schéma de données pour détecter les mauvais exemples, puis supprimez-les de l'ensemble d'entraînement.
Oui, c'est une bonne pratique pour tous les modèles.
Réduisez le taux d'apprentissage.
Oui, réduire le taux d'apprentissage est souvent une bonne idée lors du débogage d'un problème d'entraînement.
Réduire l'ensemble d'entraînement à un petit nombre d'exemples fiables.
Bien que cette technique semble artificielle, c'est en fait une bonne idée. En supposant que le modèle converge vers le petit ensemble d'exemples fiables, vous pouvez ensuite ajouter progressivement d'autres exemples, et peut-être découvrir ceux qui font osciller la courbe de perte.
Augmentez le nombre d'exemples dans l'ensemble d'entraînement.
C'est une idée tentante, mais il est extrêmement peu probable qu'elle résolve le problème.
Augmentez le taux d'apprentissage.
En général, évitez d'augmenter le taux d'apprentissage lorsque la courbe d'apprentissage d'un modèle indique un problème.

Exercice 2 Courbe de perte avec un saut marqué

Figure 22. Graphique de la courbe de perte montrant la perte diminuant jusqu'à un certain nombre d'étapes d'entraînement, puis augmentant soudainement avec d'autres étapes d'entraînement.
Figure 22 : Forte augmentation des pertes.
Parmi les deux propositions suivantes, lesquelles identifient des raisons possibles de l'explosion des pertes illustrée dans la figure 22 ?
Les données d'entrée contiennent un ou plusieurs NaN, par exemple une valeur causée par une division par zéro.
Ce problème est plus courant que vous ne le pensez.
Les données d'entrée contiennent une rafale d'écarts.
Il arrive qu'un lot contienne de nombreux "valeurs aberrantes" en raison d'un mélange incorrect des lots.
Le taux d'apprentissage est trop faible.
Un taux d'apprentissage très faible peut augmenter la durée d'entraînement, mais ce n'est pas la cause de la courbe de perte étrange.
Le taux de régularisation est trop élevé.
Il est vrai qu'une régularisation très élevée peut empêcher la convergence d'un modèle. Toutefois, elle ne provoque pas la courbe de perte étrange illustrée à la figure 22.

Exercice 3. La perte d'évaluation diverge de la perte d'apprentissage

Figure 23. La courbe de perte d'entraînement semble converger, mais la perte de validation commence à augmenter après un certain nombre d'étapes d'entraînement.
Figure 23 : Forte augmentation de la perte de validation.
Parmi les énoncés suivants, lequel identifie le mieux la raison de cette différence entre les courbes de perte des ensembles d'entraînement et de test ?
Le modèle surajuste l'ensemble d'entraînement.
Oui, c'est probablement le cas. Solutions possibles :
  • Simplifiez le modèle, en réduisant éventuellement le nombre de fonctionnalités.
  • Augmentez le taux de régularisation.
  • Assurez-vous que l'ensemble d'entraînement et l'ensemble de test sont statistiquement équivalents.
Le taux d'apprentissage est trop élevé.
Si le taux d'apprentissage était trop élevé, la courbe de perte de l'ensemble d'entraînement n'aurait probablement pas eu le même comportement.

Exercice 4 La courbe de fonction de perte se bloque

Figure 24. Graphique d'une courbe de perte montrant que la perte commence à converger avec l'entraînement, mais qu'elle affiche ensuite des schémas répétés qui ressemblent à une onde rectangulaire.
Figure 24 : Perte chaotique après un certain nombre d'étapes.
Laquelle des affirmations suivantes est la plus probable pour expliquer la courbe de perte erratique illustrée dans la figure 24 ?
L'ensemble d'entraînement contient des séquences d'exemples répétitives.
C'est une possibilité. Assurez-vous de mélanger suffisamment les exemples.
Le taux de régularisation est trop élevé.
Il est peu probable que ce soit la cause.
L'ensemble d'entraînement contient trop de caractéristiques.
Il est peu probable que ce soit la cause.