Une nouvelle version améliorée du cours d'initiation au machine learning sera disponible en août 2024. Tenez-vous informé !

Cette page a été traduite par l'API Cloud Translation.

Généralisation

La généralisation fait référence à la capacité de votre modèle à s'adapter correctement à de nouvelles données qui n'étaient pas visibles au préalable. Ces données sont extraites de la même distribution que celle utilisée pour créer le modèle.

Généralisation

L'essentiel

Cycle de modèle, prédiction, échantillon, découvrir la distribution réelle, plus d'échantillonnage

Objectif: effectuer des prédictions correctes sur de nouvelles données extraites de la distribution réelle (masquée)
Problème: nous ne voyons pas la vérité.

Nous n'en découvrons qu'un extrait.

L'essentiel

Objectif: effectuer des prédictions correctes sur de nouvelles données extraites de la distribution réelle (masquée)
Problème: nous ne voyons pas la vérité.

Nous n'en découvrons qu'un extrait.

Si le modèle h correspond bien à l'échantillon actuel, comment pouvons-nous le prédire sur d'autres nouveaux échantillons ?

Comment savoir si notre modèle est bon ?

Théoriquement:

Champ d'intérêt: théorie de la généralisation
Basé sur les idées de mesure de la simplicité / complexité du modèle

Intuition: formalisation du principe du rasoir d'Ockham

Moins un modèle est complexe, plus il est probable qu'un bon résultat empirique ne soit pas simplement dû aux particularités de notre échantillon

Comment savoir si notre modèle est bon ?

Empiriquement :
- Posez-vous la question suivante: notre modèle fonctionnera-t-il bien sur un nouvel échantillon de données ?
- Évaluation: obtenez un nouvel échantillon de données et appelez-le "ensemble de test".
- De manière générale, les bonnes performances de l'ensemble de test sont des indicateurs utiles sur les nouvelles données:

Les petits détails du ML

Voici les trois hypothèses de base:

Des exemples de variables indépendantes et identiquement distribuées (iid) sont extraits de la distribution de manière aléatoire.
La distribution est stationnaire: elle ne change pas au fil du temps.
Nous extrayons toujours les données de la même distribution, y compris les ensembles d'entraînement, de validation et de test.

Exercices de programmation

Risque de surapprentissage