Étape 1: Collectez les données
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
La collecte de données est l'étape la plus importante pour résoudre tout problème de machine learning supervisé. La qualité de votre classificateur de texte dépend de l'ensemble de données à partir duquel il a été créé.
Si vous n'avez pas de problème spécifique à résoudre et que vous souhaitez simplement découvrir la classification de texte en général, de nombreux ensembles de données Open Source sont disponibles. Vous trouverez des liens vers certains d'entre eux dans notre dépôt GitHub.
En revanche, si vous vous attaquez à un problème spécifique, vous devrez collecter les données nécessaires. De nombreuses organisations fournissent des API publiques pour accéder à leurs données, par exemple l'API X ou l'API NY Times. Vous pourrez peut-être utiliser ces API pour résoudre le problème que vous essayez de résoudre.
Voici quelques points importants à retenir lorsque vous collectez des données:
- Si vous utilisez une API publique, prenez connaissance de ses limites avant de l'utiliser. Par exemple, certaines API limitent la fréquence à laquelle vous pouvez effectuer des requêtes.
- Plus vous avez d'exemples d'entraînement (appelés exemples dans la suite de ce guide), mieux c'est. Cela vous aidera à mieux généraliser votre modèle.
- Assurez-vous que le nombre d'échantillons pour chaque classe ou sujet n'est pas trop déséquilibré. Autrement dit, vous devez disposer d'un nombre d'échantillons comparable dans chaque classe.
- Assurez-vous que vos échantillons couvrent de manière appropriée l'espace des entrées possibles, et pas seulement les cas courants.
Tout au long de ce guide, nous utiliserons l'ensemble de données de critiques de films dans l'Internet Movie Database (IMDb) pour illustrer le workflow. Cet ensemble de données contient des critiques de films publiées par des internautes sur le site Web d'IMDb, ainsi que les étiquettes correspondantes ("positive" ou "négative") indiquant si le spectateur a aimé le film ou non. Il s'agit d'un exemple classique
de problème d'analyse des sentiments.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/07/27 (UTC).
[null,null,["Dernière mise à jour le 2025/07/27 (UTC)."],[[["\u003cp\u003eHigh-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance.\u003c/p\u003e\n"],["\u003cp\u003ePublic APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes.\u003c/p\u003e\n"],["\u003cp\u003eAdequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis.\u003c/p\u003e\n"],["\u003cp\u003eWhen collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization.\u003c/p\u003e\n"]]],[],null,["# Step 1: Gather Data\n\nGathering data is the most important step in solving any supervised machine\nlearning problem. Your text classifier can only be as good as the dataset it is\nbuilt from.\n\nIf you don't have a specific problem you want to solve and are just interested\nin exploring text classification in general, there are plenty of open source\ndatasets available. You can find links to some of them in our [GitHub\nrepo](https://github.com/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py).\nOn the other hand, if you are tackling a specific problem,\nyou will need to collect the necessary data. Many organizations provide public\nAPIs for accessing their data---for example, the\n[X API](https://developer.x.com/docs) or the\n[NY Times API](http://developer.nytimes.com/). You may be able to leverage\nthese APIs for the problem you are trying to solve.\n\nHere are some important things to remember when collecting data:\n\n- If you are using a public API, understand the *limitations* of the API before using them. For example, some APIs set a limit on the rate at which you can make queries.\n- The more training examples (referred to as *samples* in the rest of this guide) you have, the better. This will help your model [generalize](/machine-learning/glossary#generalization) better.\n- Make sure the number of samples for every *class* or topic is not overly [imbalanced](/machine-learning/glossary#class_imbalanced_data_set). That is, you should have comparable number of samples in each class.\n- Make sure that your samples adequately cover the *space of possible inputs*, not only the common cases.\n\nThroughout this guide, we will use the [Internet Movie Database (IMDb) movie\nreviews dataset](http://ai.stanford.edu/%7Eamaas/data/sentiment/) to illustrate\nthe workflow. This dataset contains movie reviews posted by people on the IMDb\nwebsite, as well as the corresponding labels (\"positive\" or \"negative\")\nindicating whether the reviewer liked the movie or not. This is a classic\nexample of a sentiment analysis problem."]]