データをクラスタ化する手順は次のとおりです。
- データを準備します。
- 類似性指標を作成する。
- クラスタ化アルゴリズムを実行します。
- 結果を解釈してクラスタリングを調整します。
このページでは、手順について簡単に説明します。以降のセクションで詳しく説明します。
データの準備
他の ML 問題と同様に、そのデータでモデルをトレーニングまたはファインチューニングする前に、特徴データを正規化、スケーリング、変換する必要があります。また、クラスタリングする前に、準備したデータでサンプル間の類似性を正確に計算できることを確認します。
類似性指標を作成する
クラスタリング アルゴリズムがデータをグループ化するには、サンプルのペアの類似度を把握する必要があります。類似性指標を作成することで、サンプル間の類似性を定量化できます。この場合、データを慎重に理解する必要があります。
クラスタ化アルゴリズムを実行する
クラスタリング アルゴリズムは、類似性指標を使用してデータをクラスタ化します。このコースでは k 平均法を使用します。
結果を解釈して調整する
クラスタリングでは、出力を検証できる正解が生成または含まれないため、クラスタレベルとサンプルレベルの両方で、結果が期待値と一致しているかどうかを確認することが重要です。結果が奇妙に見えたり、品質が低下している場合は、前の 3 つの手順を試してください。出力の品質がニーズを満たすまで反復処理を続けます。