テキスト分類アルゴリズムは、テキストデータを大規模に処理するさまざまなソフトウェア システムの中核となります。メール ソフトウェアは、テキスト分類を使用して、受信メールが受信トレイに送信されるか、迷惑メールフォルダに振り分けられるかを判断します。ディスカッション フォーラムでは、テキスト分類を使用して、コメントを不適切として報告するかどうかを判断しています。
これらは、テキスト分類を事前定義されたトピックのセットに分類する 2 つの例です。多くのトピック分類問題では、この分類は主にテキスト内のキーワードに基づいて行われます。
図 1: トピック分類を使用して、受信した迷惑メールを迷惑メールフォルダに振り分けます。
テキスト分類のもう 1 つの一般的な分類に感情分析があります。これは、テキスト コンテンツの極性(表現の考え方)を特定することです。これには、高評価/低評価の 2 項評価、または 1 ~ 5 の星評価などのより詳細なオプションがあります。感情分析の例には、Twitter の投稿を分析してブラックパンサーの映画が気に入ったかどうかを判断する、ウォルマートのレビューからナイキシューズの新ブランドについて一般ユーザーの意見を推測する、などがあります。
このガイドでは、テキスト分類の問題を解決するための主要な機械学習のベスト プラクティスについて説明します。主なポイント:
- 機械学習を使用してテキスト分類の問題を解決するための高レベルのエンドツーエンドのワークフロー
- テキスト分類問題に適したモデルを選択する方法
- TensorFlow を使用して任意のモデルを実装する方法
テキスト分類ワークフロー
ここでは、機械学習の問題の解決に使用されるワークフローの概要を示します。
- ステップ 1: データを収集する
- ステップ 2: データを確認する
- ステップ 2.5: モデルを選択する*
- ステップ 3: データを準備する
- ステップ 4: モデルの構築、トレーニング、評価を行う
- ステップ 5: ハイパーパラメータを調整する
- ステップ 6: モデルをデプロイする
図 2: 機械学習の問題を解決するためのワークフロー
以降のセクションでは、各ステップの詳細と、テキストデータ用にステップを実装する方法について説明します。