クラスタリング ワークフロー

データをクラスタ化する手順は次のとおりです。

  1. データを準備する。
  2. 類似性の指標を作成する。
  3. クラスタリング アルゴリズムを実行します。
  4. 結果を解釈し、クラスタリングを調整します。

このページでは、手順について簡単に説明します。これについては、以降のセクションで詳しく説明します。

クラスタリング ワークフローの 4 つのステップ

データの準備

他の ML の問題と同様に、特徴データの正規化、スケーリング、変換を行う必要があります。ただし、クラスタリングを行う際は、準備済みのデータによって、サンプル間の類似性を正確に計算できることを確認する必要があります。次のセクションでは、この考慮事項について説明します。

類似性の指標を作成

クラスタリング アルゴリズムがデータをグループ化する前に、サンプルのペアの類似度を知る必要があります。類似性の指標を作成することで、例間の類似度を定量化します。類似性の指標を作成するには、データと、特徴から類似性を抽出する方法を慎重に理解する必要があります。

クラスタリング アルゴリズムの実行

クラスタリング アルゴリズムは、類似性指標を使用してデータをクラスタ化します。このコースでは K 平均法に焦点を当てます。

結果の解釈と調整

クラスタリングは出力を検証できる「トゥルース」を持たないため、クラスタリング出力の品質チェックは繰り返し行うことができます。クラスタレベルとサンプルレベルで、期待値に対する結果を検証します。結果を向上させるには、前のステップを反復的にテストして、クラスタリングに与える影響を確認する必要があります。