ステップ 1: データを収集する
データの収集は、教師あり ML の問題を解決するうえで最も重要なステップです。テキスト分類器の品質は、作成元となるデータセットで決まります。
解決したい特定の問題がなく、一般的なテキスト分類の検討に関心がある場合は、オープンソースのデータセットがたくさんあります。一部へのリンクは GitHub リポジトリで確認できます。一方、特定の問題に取り組む場合は、必要なデータを収集する必要があります。多くの組織では、データにアクセスするための公開 API(X API や NY Times API など)が提供されています。解決しようとしている問題にこれらの API を利用できる場合があります。
データを収集する際は、以下の点に注意してください。
- 公開 API を使用する場合は、使用する前に API の制限事項を理解してください。たとえば、一部の API では、クエリを実行できるレートに上限が設定されています。
- トレーニング サンプル(このガイドでは以降「サンプル」と呼びます)は多ければ多いほど良いと言えます。これにより、モデルの一般化が改善されます。
- すべてのクラスまたはトピックのサンプル数の不均衡が過度にないようにします。つまり、各クラスに同数のサンプルが必要です。
- サンプルが、一般的なケースだけでなく、可能な入力のスペースを適切にカバーしていることを確認してください。
このガイドでは、Internet Movie Database(IMDb)映画レビュー データセットを使用してワークフローを示します。このデータセットには、IMDb ウェブサイトにユーザーが投稿した映画のレビューと、レビュアーが映画を高く評価したかどうかを示す対応するラベル(「ポジティブ」または「ネガティブ」)が含まれています。これは感情分析の問題の典型的な例です。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2024-06-25 UTC。
[null,null,["最終更新日 2024-06-25 UTC。"],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]