Surapprentissage: interpréter les courbes de fonction de perte

Le machine learning serait beaucoup plus simple si toutes vos courbes de perte se présentaient comme suit la première fois que vous entraînez votre modèle:

Figure 20. Graphique montrant la courbe de perte idéale lors de l'entraînement d'un modèle de machine learning. La courbe de perte représente la perte sur l'axe Y par rapport au nombre d'étapes d'entraînement sur l'axe X. À mesure que le nombre d'étapes d'entraînement augmente, la perte commence à un niveau élevé, puis diminue de manière exponentielle et finit par s'aplatir pour atteindre une perte minimale.
Figure 20 : Courbe de fonction de perte idéale.

Malheureusement, les courbes de perte sont souvent difficiles à interpréter. Utilisez votre intuition concernant les courbes de perte pour résoudre les exercices de cette page.

Exercice 1: Courbe de perte oscillante

Figure 21. Courbe de perte (perte sur l'axe Y, nombre d'étapes d'entraînement sur l'axe X) dans laquelle la perte ne s'aplatit pas.
            Au lieu de cela, la perte oscille de manière erratique.
Figure 21 : Courbe de fonction de perte oscillante.
Quelles trois actions pouvez-vous entreprendre pour essayer d'améliorer la courbe de perte illustrée à la figure 21 ?
Réduire l'ensemble d'entraînement à un petit nombre d'exemples fiables.
Réduisez le taux d'apprentissage.
Comparez vos données à un schéma de données pour détecter les mauvais exemples, puis supprimez-les de l'ensemble d'entraînement.
Augmentez le taux d'apprentissage.
Augmentez le nombre d'exemples dans l'ensemble d'entraînement.

Exercice 2 Courbe de perte avec un saut marqué

Figure 22. Graphique de la courbe de perte montrant la perte diminuant jusqu'à un certain nombre d'étapes d'entraînement, puis augmentant soudainement avec d'autres étapes d'entraînement.
Figure 22 : Forte augmentation des pertes.
Parmi les deux propositions suivantes, lesquelles identifient des raisons possibles de l'explosion des pertes illustrée dans la figure 22 ?
Le taux d'apprentissage est trop faible.
Les données d'entrée contiennent un ou plusieurs NaN, par exemple une valeur causée par une division par zéro.
Les données d'entrée contiennent une rafale d'écarts.
Le taux de régularisation est trop élevé.

Exercice 3. La perte d'évaluation diverge de la perte d'apprentissage

Figure 23. La courbe de perte d'entraînement semble converger, mais la perte de validation commence à augmenter après un certain nombre d'étapes d'entraînement.
Figure 23 : Forte augmentation de la perte de validation.
Parmi les énoncés suivants, lequel identifie le mieux la raison de cette différence entre les courbes de perte des ensembles d'entraînement et de test ?
Le modèle surajuste l'ensemble d'entraînement.
Le taux d'apprentissage est trop élevé.

Exercice 4 La courbe de fonction de perte se bloque

Figure 24. Graphique d'une courbe de perte montrant que la perte commence à converger avec l'entraînement, mais qu'elle affiche ensuite des schémas répétés qui ressemblent à une onde rectangulaire.
Figure 24 : Perte chaotique après un certain nombre d'étapes.
Laquelle des affirmations suivantes est la plus probable pour expliquer la courbe de perte erratique illustrée dans la figure 24 ?
Le taux de régularisation est trop élevé.
L'ensemble d'entraînement contient des séquences d'exemples répétitives.
L'ensemble d'entraînement contient trop de caractéristiques.