Dans cette leçon, vous allez résoudre un problème réel de ML* lié à la littérature du XVIIIe siècle.
Exemple concret: littérature du XVIIIe siècle
Exemple concret: littérature du XVIIIe siècle
- Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
Exemple concret: littérature du XVIIIe siècle
- Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
- L'équipe de chercheurs a créé un ensemble de données étiquetées volumineux comportant de nombreux auteurs, phrases par phrase, et les a divisées en ensembles d'entraînement, de validation et de test.
Exemple concret: littérature du XVIIIe siècle
- Le professeur de littérature du XVIIIe siècle voulait prédire l'affiliation politique des auteurs en se basant uniquement sur les "métaphores" de l'auteur utilisées par l'auteur.
- L'équipe de chercheurs a créé un ensemble de données étiquetées volumineux comportant de nombreux auteurs, phrases par phrase, et les a divisées en ensembles d'entraînement, de validation et de test.
- Le modèle entraîné a parfaitement fonctionné avec les données de test, mais les chercheurs ont estimé que les résultats étaient précis. Quel peut être le problème ?
Exemple concret: littérature du XVIIIe siècle
Pourquoi pensez-vous que la précision des tests était suspecte ? Essayez de trouver une solution à votre problème, puis cliquez sur le bouton de lecture ▶ ci-dessous pour vérifier si vous avez eu raison.
Exemple concret: littérature du XVIIIe siècle
- Répartition des données A: les chercheurs placent certains exemples de chaque auteur dans un ensemble d'entraînement, d'autres dans un ensemble de validation, d'autres dans un ensemble de test.
Tous les exemples de Richardson peuvent figurer dans l'ensemble d'entraînement, tandis que tous les exemples de Swift peuvent se trouver dans l'ensemble de validation.
Exemple concret: littérature du XVIIIe siècle
- Division des données B: les chercheurs placent tous les exemples de chaque auteur dans un seul ensemble.
Exemple concret: littérature du XVIIIe siècle
- Répartition des données A: les chercheurs placent certains exemples de chaque auteur dans un ensemble d'entraînement, d'autres dans un ensemble de validation, d'autres dans un ensemble de test.
- Division des données B: les chercheurs placent tous les exemples de chaque auteur dans un seul ensemble.
- Résultats: la précision du modèle entraîné sur la division de données A est beaucoup plus élevée que celle du modèle entraîné sur la division de données B.
Exemple concret: littérature du XVIIIe siècle
La morale: réfléchissez bien à la façon dont vous divisez les exemples.
Déterminez ce que les données représentent.
* Nous avons basé ce module de manière très générale (en apportant des modifications) sur la page Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" by Sculley and Pasanek.