Étape 1: Collectez les données

La collecte de données est l'étape la plus importante pour résoudre un problème de machine learning supervisé. Votre classificateur de texte ne peut pas dépasser l'ensemble de données à partir duquel il a été créé.

Si vous n'avez pas de problème spécifique à résoudre et que vous souhaitez simplement explorer la classification de texte en général, il existe de nombreux ensembles de données Open Source. Vous trouverez des liens vers certains d'entre eux dans notre dépôt GitHub. En revanche, si vous vous attaquez à un problème spécifique, vous devez collecter les données nécessaires. De nombreuses organisations fournissent des API publiques pour accéder à leurs données, par exemple l'API Twitter ou l'API NY Times. Vous pourrez peut-être les utiliser pour le problème que vous essayez de résoudre.

Voici quelques points importants à retenir lorsque vous collectez des données:

  • Si vous utilisez une API publique, prenez connaissance des limites de l'API avant de les utiliser. Par exemple, certaines API limitent la fréquence à laquelle vous pouvez effectuer des requêtes.
  • Nous vous conseillons d'utiliser le plus d'exemples d'entraînement (appelés exemples dans le reste de ce guide). Cela permettra à votre modèle de mieux se généraliser.
  • Assurez-vous que le nombre d'échantillons pour chaque classe ou sujet n'est pas trop déséquilibré. Autrement dit, vous devriez avoir un nombre comparable d'échantillons dans chaque classe.
  • Assurez-vous que vos échantillons couvrent de manière adéquate l'espace des entrées possibles, et pas uniquement les cas courants.

Dans ce guide, nous allons illustrer le workflow à l'aide de l'ensemble de données d'avis sur les films d'Internet Movie Database (IMDb). Cet ensemble de données contient des critiques de films publiées par les internautes sur le site Web d'IMDb, ainsi que les libellés correspondants ("positifs" ou "négatifs"), indiquant si le contributeur a aimé le film ou non. Il s'agit d'un exemple classique de problème d'analyse des sentiments.