La collecte de données est l'étape la plus importante pour résoudre tout problème de machine learning supervisé. La qualité de votre classificateur de texte dépend de l'ensemble de données à partir duquel il a été créé.
Si vous n'avez pas de problème spécifique à résoudre et que vous souhaitez simplement découvrir la classification de texte en général, de nombreux ensembles de données Open Source sont disponibles. Vous trouverez des liens vers certains d'entre eux dans notre dépôt GitHub. En revanche, si vous vous attaquez à un problème spécifique, vous devrez collecter les données nécessaires. De nombreuses organisations fournissent des API publiques pour accéder à leurs données, par exemple l'API X ou l'API NY Times. Vous pourrez peut-être utiliser ces API pour résoudre le problème que vous essayez de résoudre.
Voici quelques points importants à retenir lorsque vous collectez des données:
- Si vous utilisez une API publique, prenez connaissance de ses limites avant de l'utiliser. Par exemple, certaines API limitent la fréquence à laquelle vous pouvez effectuer des requêtes.
- Plus vous avez d'exemples d'entraînement (appelés exemples dans la suite de ce guide), mieux c'est. Cela vous aidera à mieux généraliser votre modèle.
- Assurez-vous que le nombre d'échantillons pour chaque classe ou sujet n'est pas trop déséquilibré. Autrement dit, vous devez disposer d'un nombre d'échantillons comparable dans chaque classe.
- Assurez-vous que vos échantillons couvrent de manière appropriée l'espace des entrées possibles, et pas seulement les cas courants.
Tout au long de ce guide, nous utiliserons l'ensemble de données de critiques de films dans l'Internet Movie Database (IMDb) pour illustrer le workflow. Cet ensemble de données contient des critiques de films publiées par des internautes sur le site Web d'IMDb, ainsi que les étiquettes correspondantes ("positive" ou "négative") indiquant si le spectateur a aimé le film ou non. Il s'agit d'un exemple classique de problème d'analyse des sentiments.