Surapprentissage : création d'un modèle qui correspond (mémorise) le ensemble d'entraînement afin que le modèle ne parvient pas à effectuer des prédictions correctes avec de nouvelles données. Un modèle en surapprentissage est comparable à une invention performante en laboratoire, est sans valeur dans le monde réel.
Dans la figure 11, imaginez que chaque forme géométrique représente la position d'un arbre. dans une forêt carrée. Les losanges bleus indiquent l'emplacement des arbres sains, tandis que les cercles orange indiquent l'emplacement des arbres malades.
Dessinez mentalement des formes (lignes, courbes, ovales, etc.) pour séparer des arbres en bonne santé des arbres malades. Développez ensuite la ligne suivante pour examiner une séparation possible.
Les formes complexes de la figure 12 ont toutes réussi à classer les arbres. Si nous considérons les formes comme un modèle, du modèle de ML.
ou presque… Un modèle vraiment excellent permet de catégoriser de nouveaux exemples. La figure 13 montre ce qui se passe lorsque le même modèle effectue des prédictions sur de nouvelles exemples de l'ensemble de test:
Ainsi, le modèle complexe illustré à la figure 12 a été très efficace sur l'ensemble d'entraînement mais pas du tout sur l'ensemble de test. Il s'agit d'un cas classique de modèle surapprentissage aux données de l'ensemble d'entraînement.
Ajustement, surapprentissage et sous-apprentissage
Le modèle doit réaliser des prédictions correctes sur de nouvelles données. En d'autres termes, vous souhaitez créer un modèle adapté de nouvelles données.
Comme vous l'avez vu, un modèle de surapprentissage permet d'obtenir d'excellentes prédictions mais de mauvaises prédictions sur les nouvelles données. Une modèle de sous-apprentissage ne génère même pas de bonnes prédictions sur les données d'entraînement. Si un modèle en surapprentissage comme un produit qui fonctionne bien en laboratoire mais mal dans le monde réel, alors un modèle de sous-apprentissage, c'est comme un produit qui ne fonctionne même pas bien dans l'atelier.
La généralisation est la contrairement au surapprentissage. En d'autres termes, un modèle bien généralisable des prédictions à partir de nouvelles données. L'objectif est de créer un modèle généralisable aux nouvelles données.
Détecter le surapprentissage
Les courbes suivantes vous aident à détecter le surapprentissage:
- courbes de fonction de perte
- courbes de généralisation
Une courbe de perte représente la perte d'un modèle par rapport au nombre d'itérations d'entraînement. Un graphique qui présente au moins deux courbes de fonction de perte s'appelle une généralisation à la courbe. Les éléments suivants : présente deux courbes de fonction de perte:
Notez que les deux courbes de fonction de perte se comportent de la même manière au début, puis divergent. Autrement dit, après un certain nombre d'itérations, la perte diminue ou est stable (convergence) pour l'ensemble d'entraînement, mais augmente pour l'ensemble de validation. Cela suggère un surapprentissage.
En revanche, une courbe de généralisation pour un modèle adapté montre deux courbes de fonction de perte qui ont des formes similaires.
Quelles sont les causes du surapprentissage ?
De manière très générale, le surapprentissage est dû à l'une des causes suivantes, ou aux deux à la fois. problèmes:
- L'ensemble d'entraînement ne représente pas correctement des données réelles (ou ensemble de validation ou de test).
- Le modèle est trop complexe.
Conditions de généralisation
Un modèle s'entraîne sur un ensemble d'entraînement, mais le vrai test de la valeur d'un modèle est de savoir il effectue des prédictions sur de nouveaux exemples, en particulier sur des données réelles. Lors du développement d'un modèle, votre ensemble de test sert de proxy pour des données réelles. L'entraînement d'un modèle bien généralisable implique les conditions d'ensemble de données suivantes:
- Les exemples doivent être Distribués de manière indépendante et identique, qui est une façon sophistiquée de dire que votre exemples ne peuvent pas s'influencer les uns les autres.
- Le jeu de données est stationnaire, c'est-à-dire l'ensemble de données ne change pas de manière significative au fil du temps.
- Les partitions de l'ensemble de données ont la même distribution. Autrement dit, les exemples de l'ensemble d'entraînement sont statistiquement similaires aux des exemples dans l'ensemble de validation, l'ensemble de test et les données réelles.
Explorez les conditions précédentes en effectuant les exercices suivants.
Exercices: tester vos connaissances
Exercice challenge
Vous créez un modèle qui prédit la date idéale à laquelle les usagers achètent un un billet de train pour un itinéraire particulier. Par exemple, il peut recommander que les utilisateurs achètent leur billet le 8 juillet pour un train qui part le 23 juillet. La compagnie ferroviaire met à jour les prix toutes les heures, en s'appuyant sur différents de facteurs, mais principalement sur le nombre actuel de sièges disponibles. Par exemple :
- Si de nombreuses places sont disponibles, les prix des billets sont généralement bas.
- Si très peu de places sont disponibles, le prix des billets est généralement élevé.
Réponse:Le modèle réel a du mal avec boucle de rétroaction.
Par exemple, supposons que le modèle recommande aux utilisateurs d'acheter des billets le 8 juillet. Certains usagers qui utilisent la recommandation du modèle achètent leurs billets à 8h30. dans la matinée du 8 juillet. À 9h, la compagnie ferroviaire augmente ses prix, moins de sièges sont désormais disponibles. Les usagers qui utilisent les recommandations du modèle ont des prix modifiés. Le soir, le prix des billets peut être beaucoup plus élevé que dans le matin.