クラスタリング ワークフロー

データをクラスタ化する手順は次のとおりです。

  1. データを準備します。
  2. 類似性指標を作成する。
  3. クラスタ化アルゴリズムを実行します。
  4. 結果を解釈してクラスタリングを調整します。

このページでは、手順について簡単に説明します。以降のセクションで詳しく説明します。

データの準備

他の ML 問題と同様に、そのデータでモデルをトレーニングまたはファインチューニングする前に、特徴データを正規化、スケーリング、変換する必要があります。また、クラスタリングする前に、準備したデータでサンプル間の類似性を正確に計算できることを確認します。

類似性指標を作成する

クラスタリング アルゴリズムがデータをグループ化するには、サンプルのペアの類似度を把握する必要があります。類似性指標を作成することで、サンプル間の類似性を定量化できます。この場合、データを慎重に理解する必要があります。

クラスタ化アルゴリズムを実行する

クラスタリング アルゴリズムは、類似性指標を使用してデータをクラスタ化します。このコースでは k 平均法を使用します。

結果を解釈して調整する

クラスタリングでは、出力を検証できる正解が生成または含まれないため、クラスタレベルとサンプルレベルの両方で、結果が期待値と一致しているかどうかを確認することが重要です。結果が奇妙に見えたり、品質が低下している場合は、前の 3 つの手順を試してください。出力の品質がニーズを満たすまで反復処理を続けます。