Surapprentissage

Surapprentissage : création d'un modèle qui correspond (mémorise) le ensemble d'entraînement afin que le modèle ne parvient pas à effectuer des prédictions correctes avec de nouvelles données. Un modèle en surapprentissage est comparable à une invention performante en laboratoire, est sans valeur dans le monde réel.

Dans la figure 11, imaginez que chaque forme géométrique représente la position d'un arbre. dans une forêt carrée. Les losanges bleus indiquent l'emplacement des arbres sains, tandis que les cercles orange indiquent l'emplacement des arbres malades.

Figure 11 : Cette figure contient environ 60 points, dont la moitié sont
            des arbres en bonne santé et 
des autres arbres à moitié malades.
            Les arbres sains se trouvent principalement dans le quadrant nord-est, même si quelques
            des arbres sains se faufilent dans les quadrants nord-ouest. Les arbres malades
            se trouvent principalement dans le quadrant sud-est, mais quelques-uns des arbres malades
            se déverser dans d'autres quadrants.
Figure 11 : Ensemble d'entraînement: emplacements d'arbres sains et malades dans une forêt carrée.

 

Dessinez mentalement des formes (lignes, courbes, ovales, etc.) pour séparer des arbres en bonne santé des arbres malades. Développez ensuite la ligne suivante pour examiner une séparation possible.

Les formes complexes de la figure 12 ont toutes réussi à classer les arbres. Si nous considérons les formes comme un modèle, du modèle de ML.

ou presque… Un modèle vraiment excellent permet de catégoriser de nouveaux exemples. La figure 13 montre ce qui se passe lorsque le même modèle effectue des prédictions sur de nouvelles exemples de l'ensemble de test:


  
  
    Figure 13 Un nouveau lot d'arbres en bonne santé et malades est superposé à la
            présenté à la figure 12. Le modèle classe une grande partie des
            arbres.
Figure 13.Ensemble de test: modèle complexe permettant de distinguer les arbres malades des arbres sains.

 

Ainsi, le modèle complexe illustré à la figure 12 a été très efficace sur l'ensemble d'entraînement mais pas du tout sur l'ensemble de test. Il s'agit d'un cas classique de modèle surapprentissage aux données de l'ensemble d'entraînement.

Ajustement, surapprentissage et sous-apprentissage

Le modèle doit réaliser des prédictions correctes sur de nouvelles données. En d'autres termes, vous souhaitez créer un modèle adapté de nouvelles données.

Comme vous l'avez vu, un modèle de surapprentissage permet d'obtenir d'excellentes prédictions mais de mauvaises prédictions sur les nouvelles données. Une modèle de sous-apprentissage ne génère même pas de bonnes prédictions sur les données d'entraînement. Si un modèle en surapprentissage comme un produit qui fonctionne bien en laboratoire mais mal dans le monde réel, alors un modèle de sous-apprentissage, c'est comme un produit qui ne fonctionne même pas bien dans l'atelier.

Figure 14. Graphique cartésien. L'axe des X est étiqueté "Qualité des prédictions"
            sur l'ensemble d'entraînement ». L'axe Y est étiqueté 
« qualité des prédictions » sur
            des données du monde réel. » Une courbe commence à l'origine
et augmente progressivement,
            mais tombe aussi vite. La partie inférieure gauche de la courbe
            (faible qualité des prédictions sur des données réelles et de faible qualité
            sur l'ensemble d'entraînement) est appelée "modèles de sous-apprentissage". La
            en bas à droite de la courbe (prédictions de mauvaise qualité
            des données réelles, mais des prédictions de haute qualité sur l'ensemble d'entraînement)
            est appelé "modèles de surapprentissage". Pic de la courbe (haut
            de prédictions sur des données réelles et de qualité moyenne
            sur l'ensemble d'entraînement) est intitulée "Adapter les modèles".
Figure 14 : Modèles de sous-apprentissage, de forme et de surapprentissage.

 

La généralisation est la contrairement au surapprentissage. En d'autres termes, un modèle bien généralisable des prédictions à partir de nouvelles données. L'objectif est de créer un modèle généralisable aux nouvelles données.

Détecter le surapprentissage

Les courbes suivantes vous aident à détecter le surapprentissage:

  • courbes de fonction de perte
  • courbes de généralisation

Une courbe de perte représente la perte d'un modèle par rapport au nombre d'itérations d'entraînement. Un graphique qui présente au moins deux courbes de fonction de perte s'appelle une généralisation à la courbe. Les éléments suivants : présente deux courbes de fonction de perte:

Figure 15. Progressivement, la fonction de perte de l'ensemble d'entraînement
            refus. La fonction de perte de l'ensemble
de validation refuse également
            puis il commence à augmenter
après un certain nombre d'itérations.
Figure 15 : Courbe de généralisation qui implique fortement un surapprentissage.

 

Notez que les deux courbes de fonction de perte se comportent de la même manière au début, puis divergent. Autrement dit, après un certain nombre d'itérations, la perte diminue ou est stable (convergence) pour l'ensemble d'entraînement, mais augmente pour l'ensemble de validation. Cela suggère un surapprentissage.

En revanche, une courbe de généralisation pour un modèle adapté montre deux courbes de fonction de perte qui ont des formes similaires.

Quelles sont les causes du surapprentissage ?

De manière très générale, le surapprentissage est dû à l'une des causes suivantes, ou aux deux à la fois. problèmes:

  • L'ensemble d'entraînement ne représente pas correctement des données réelles (ou ensemble de validation ou de test).
  • Le modèle est trop complexe.

Conditions de généralisation

Un modèle s'entraîne sur un ensemble d'entraînement, mais le vrai test de la valeur d'un modèle est de savoir il effectue des prédictions sur de nouveaux exemples, en particulier sur des données réelles. Lors du développement d'un modèle, votre ensemble de test sert de proxy pour des données réelles. L'entraînement d'un modèle bien généralisable implique les conditions d'ensemble de données suivantes:

  • Les exemples doivent être Distribués de manière indépendante et identique, qui est une façon sophistiquée de dire que votre exemples ne peuvent pas s'influencer les uns les autres.
  • Le jeu de données est stationnaire, c'est-à-dire l'ensemble de données ne change pas de manière significative au fil du temps.
  • Les partitions de l'ensemble de données ont la même distribution. Autrement dit, les exemples de l'ensemble d'entraînement sont statistiquement similaires aux des exemples dans l'ensemble de validation, l'ensemble de test et les données réelles.

Explorez les conditions précédentes en effectuant les exercices suivants.

Exercices: tester vos connaissances

Prenons l'exemple des partitions d'ensemble de données suivantes.
Barre horizontale divisée en trois parties: 70% de la barre
                     correspond à l'ensemble d'entraînement, 15% à l'ensemble de validation et 15%
                     l'ensemble de test
Que devez-vous faire pour vous assurer que les exemples de l'ensemble d'entraînement ont une distribution statistique similaire aux exemples de l'ensemble de validation et l'ensemble de test ?
Mélanger les exemples de l'ensemble de données de manière approfondie avant les partitionner.
Oui. Un bon brassage des exemples rend les partitions beaucoup plus susceptibles d'être statistiquement similaires.
Triez les exemples du plus ancien au plus récent.
Si les exemples du jeu de données ne sont pas immobiles, alors le tri rend les partitions moins similaires.
Ne rien faire. Avec suffisamment d'exemples, la loi des moyennes garantit naturellement que les distributions statistiquement similaires.
Malheureusement, ce n'est pas le cas. Exemples dans certaines sections de l'ensemble de données peut différer .
Un service de streaming développe un modèle permettant de prédire la popularité de nouvelles émissions télévisées potentielles pour les trois prochaines années. La plan de service de traitement par flux pour entraîner le modèle sur un ensemble de données contenant des centaines de millions d'exemples, couvrant les dix ans. Ce modèle va-t-il rencontrer un problème ?
Probablement. Spectateurs les goûts changent de manière que les comportements passés ne peuvent pas à prédire.
Oui. Les goûts des spectateurs ne sont pas figés. Ils changent constamment.
Certainement pas. Le jeu de données est suffisamment volumineux pour des prédictions.
Malheureusement, ne sont pas stationnaires.
Probablement pas. Spectateurs les goûts changent de manière cyclique et prévisible. Dix ans de données permettront au modèle d'émettre de bonnes prédictions sur les tendances futures.
Bien que certains aspects du divertissement soient quelque peu cycliques, entraîné à partir de l'histoire du divertissement auront du mal à faire des prévisions sur les prochaines années.
L'objectif du modèle est de prédire le temps nécessaire pour parcourir un kilomètre en fonction de données météorologiques (température, point de rosée et précipitations) collectées sur une année dans une ville dont le temps varie de manière significative par saison. Pouvez-vous créer et tester un modèle à partir de de données, même si les relevés météorologiques changent considérablement saison ?
Oui
Oui, il est possible de créer et de tester un modèle à partir de cet ensemble de données. Vous devez juste vous assurer que les données sont partitionnées de manière égale, que les données des quatre saisons sont réparties équitablement dans différentes partitions.
Non
En supposant que ce jeu de données contienne suffisamment d'exemples de température, de rosée et les précipitations, vous pouvez créer et tester un modèle ce jeu de données. Vous devez simplement vous assurer que les données sont partitionnées afin que les données des quatre saisons soient réparties équitablement dans les différentes partitions.

Exercice challenge

Vous créez un modèle qui prédit la date idéale à laquelle les usagers achètent un un billet de train pour un itinéraire particulier. Par exemple, il peut recommander que les utilisateurs achètent leur billet le 8 juillet pour un train qui part le 23 juillet. La compagnie ferroviaire met à jour les prix toutes les heures, en s'appuyant sur différents de facteurs, mais principalement sur le nombre actuel de sièges disponibles. Par exemple :

  • Si de nombreuses places sont disponibles, les prix des billets sont généralement bas.
  • Si très peu de places sont disponibles, le prix des billets est généralement élevé.
Votre modèle présente peu sur les ensembles de validation et de test, mais il arrive de très mauvaises prédictions sur des données réelles. Pourquoi ?
Cliquez ici pour voir la réponse