Surapprentissage: interpréter les courbes de fonction de perte

Le machine learning serait beaucoup plus simple courbes de perte ressemblant à ceci la première fois que vous avez entraîné votre modèle:

Figure 20. Graphique représentant la courbe de fonction de perte idéale lors de l'entraînement d'un
            de machine learning. La courbe de fonction de perte représente la perte sur l'axe Y
            par rapport au nombre d'étapes
d'entraînement sur l'axe des x. Comme le nombre
            du nombre d'étapes d'entraînement augmente, la perte commence à un niveau élevé, puis diminue
            de façon exponentielle, puis s'aplatissent pour atteindre une
            de perte de données.
Figure 20 : Une courbe de fonction de perte idéale.

Malheureusement, les courbes de fonction de perte sont souvent difficiles à interpréter. Utilisez votre sur les courbes de fonction de perte pour résoudre les exercices de cette page.

Exercice 1: Courbe de perte oscillante

Figure 21. Une courbe de fonction de perte (perte sur l'axe des y ; nombre d'entraînements
            sur l'axe des x) dans lesquels la perte ne s'aplatit pas.
            Au contraire, la perte oscille de manière erratique.
Figure 21 : Courbe de perte oscillante.
Quelles sont les trois choses que vous pourriez faire pour améliorer la courbe de fonction de perte. comme illustré dans la figure 21.
Comparez vos données à un schéma de données pour détecter les mauvais exemples. puis supprimer les mauvais exemples de l'ensemble d'entraînement.
Oui, c'est une bonne pratique pour tous les modèles.
Réduire le taux d'apprentissage.
Oui, il est souvent judicieux de réduire le taux d'apprentissage lors du débogage le problème d'entraînement.
Réduisez l'ensemble d'entraînement à un petit nombre d'exemples fiables.
Bien que cette technique semble artificielle, idée. En supposant que le modèle converge vers le petit ensemble des exemples fiables, ajoutez progressivement d'autres exemples, en découvrant quels exemples la courbe de fonction de perte osciller.
Augmentez le nombre d'exemples dans l'ensemble d'entraînement.
C'est une idée tentante, mais il est très peu probable qu'elle soit résolue. le problème.
Augmenter le taux d'apprentissage
En règle générale, évitez d'augmenter le taux d'apprentissage d'apprentissage indique un problème.

Exercice 2 : Courbe de perte avec un saut brusque

Figure 22. Graphique représentant une courbe de fonction de perte représentant une perte décroissante
            un certain nombre d'étapes d'entraînement,
            avec d'autres étapes d'entraînement.
Figure 22 : Forte augmentation de la perte.
Quelles sont les deux affirmations qui identifient à l'origine de la perte exponentielle illustrée à la figure 22.
Les données d'entrée contiennent une ou plusieurs valeurs NaN (par exemple, une valeur) causée par une division par zéro.
Ceci est plus courant que vous ne le pensez.
Les données d'entrée contiennent de nombreuses anomalies.
Parfois, en raison d'un mauvais brassage des lots, contiennent beaucoup d'anomalies.
Le taux d'apprentissage est trop faible.
Un taux d'apprentissage très faible peut augmenter la durée de l'entraînement, mais il est et non la cause de cette étrange courbe de fonction de perte.
Le taux de régularisation est trop élevé.
Vrai, une régularisation très élevée peut empêcher le modèle converging; il n'entraînera pas l'étrange courbe de fonction de perte comme le montre la figure 22.

Exercice 3 : La perte de test diffère de la perte d'entraînement

Figure 23. La courbe de fonction de perte d'entraînement semble converger, mais
            la perte de validation commence
à augmenter après un certain nombre
            étapes.
Figure 23 : Hausse importante de la perte de validation.
Laquelle de ces affirmations identifie le mieux la raison de cette différence entre les courbes de fonction de perte de l'entraînement et les ensembles de test ?
Le modèle surapprend l'ensemble d'entraînement.
Oui, c'est probablement le cas. Solutions possibles:
  • Simplifier le modèle, en diminuant le nombre de fonctionnalités.
  • Augmenter le taux de régularisation.
  • S'assurer que l'ensemble d'entraînement et l'ensemble de test sont statistiquement équivalent.
Le taux d'apprentissage est trop élevé.
Si le taux d'apprentissage est trop élevé, la courbe de fonction de perte de l'ensemble d'entraînement n'aurait probablement pas comporté ce comportement.

Exercice 4 : La courbe de fonction de perte se bloque

Figure 24. Graphique d'une courbe de fonction de perte montrant le début de la perte
            converger avec l'entraînement,
puis afficher des modèles répétés
            ressemble à une onde rectangulaire.
Figure 24 : Perte chaotique après un certain nombre de pas.
Parmi les affirmations suivantes, laquelle est la plus probable. de la courbe de fonction de perte irrégulière illustrée à la figure 24 ?
L'ensemble d'entraînement contient des séquences d'exemples répétitives.
C'est une possibilité. Veillez à effectuer un brassage des exemples suffisamment.
Le taux de régularisation est trop élevé.
Ce n'est probablement pas la cause du problème.
L'ensemble d'entraînement contient trop de caractéristiques.
Ce n'est probablement pas la cause du problème.