データの収集は、教師あり ML の問題を解決するうえで最も重要なステップです。テキスト分類器の品質は、作成元となるデータセットで決まります。
解決したい特定の問題がなく、一般的なテキスト分類の検討に関心がある場合は、オープンソースのデータセットがたくさんあります。一部へのリンクは GitHub リポジトリで確認できます。一方、特定の問題に取り組む場合は、必要なデータを収集する必要があります。多くの組織では、データにアクセスするための公開 API(X API や NY Times API など)が提供されています。解決しようとしている問題にこれらの API を利用できる場合があります。
データを収集する際は、以下の点に注意してください。
- 公開 API を使用する場合は、使用する前に API の制限事項を理解してください。たとえば、一部の API では、クエリを実行できるレートに上限が設定されています。
- トレーニング サンプル(このガイドでは以降「サンプル」と呼びます)は多ければ多いほど良いと言えます。これにより、モデルの一般化が改善されます。
- すべてのクラスまたはトピックのサンプル数の不均衡が過度にないようにします。つまり、各クラスに同数のサンプルが必要です。
- サンプルが、一般的なケースだけでなく、可能な入力のスペースを適切にカバーしていることを確認してください。
このガイドでは、Internet Movie Database(IMDb)映画レビュー データセットを使用してワークフローを示します。このデータセットには、IMDb ウェブサイトにユーザーが投稿した映画のレビューと、レビュアーが映画を高く評価したかどうかを示す対応するラベル(「ポジティブ」または「ネガティブ」)が含まれています。これは感情分析の問題の典型的な例です。