ML 用語集: クラスタリング

このページには、クラスタリングに関する用語集の用語が記載されています。用語集のすべての用語については、こちらをクリックしてください。

A

アグロメレーション クラスタリング

#clustering

階層型クラスタリングをご覧ください。

C

centroid

#clustering

k 平均法またはk 中央値アルゴリズムによって決定されたクラスタの中心。たとえば、k が 3 の場合、K 平均法または K 中央値アルゴリズムは 3 つのセントロイドを見つけます。

詳細については、クラスタリング コースのクラスタ化アルゴリズムをご覧ください。

重心ベースのクラスタリング

#clustering

データを非階層クラスタに編成するためのクラスタリング アルゴリズムのカテゴリ。K 平均法は、最も広く使用されている重心ベースのクラスタリング アルゴリズムです。

階層クラスタリング アルゴリズムとは対照的です。

詳細については、クラスタリング コースのクラスタ化アルゴリズムをご覧ください。

クラスタリング

#clustering

関連するをグループ化します。これは特に教師なし学習で重要です。すべての例がグループ化されたら、必要に応じて各クラスタに意味を付与できます。

クラスタリング アルゴリズムには多くの種類があります。たとえば、K 平均法アルゴリズムは、次の図のように、重心への近さに基づいてサンプルをクラスタ化します。

X 軸に「木の幅」、Y 軸に「木の高さ」とラベルが付けられた 2 次元グラフ。このグラフには、2 つの重心と数十個のデータポイントが含まれています。データポイントは近接性に基づいて分類されます。つまり、一方のセントロイドに最も近いデータポイントはクラスタ 1 に分類され、もう一方のセントロイドに最も近いデータポイントはクラスタ 2 に分類されます。

人間の研究者は、クラスタを確認して、クラスタ 1 を「矮性樹木」に、クラスタ 2 を「全長樹木」にラベル付けできます。

別の例として、中心点からの例の距離に基づくクラスタリング アルゴリズムについて考えてみましょう。次に例を示します。

ダーツボードの中心の周囲の穴のように、数十個のデータポイントが同心円状に配置されています。データポイントの内側のリングはクラスタ 1、中央のリングはクラスタ 2、外側のリングはクラスタ 3 に分類されます。

詳細については、クラスタリング コースをご覧ください。

D

分割クラスタリング

#clustering

階層型クラスタリングをご覧ください。

H

階層クラスタリング

#clustering

クラスタのツリーを作成するクラスタリングアルゴリズムのカテゴリ。階層クラスタリングは、植物分類などの階層データに適しています。階層型クラスタリング アルゴリズムには、次の 2 種類があります。

  • アグロメレーション クラスタリングでは、まずすべてのサンプルを独自のクラスタに割り当て、最も近いクラスタを反復的にマージして階層ツリーを作成します。
  • 分割クラスタリングでは、まずすべてのサンプルを 1 つのクラスタにグループ化し、次にクラスタを反復的に階層ツリーに分割します。

重心ベースのクラスタリングとは対照的です。

詳細については、クラスタリング コースのクラスタリング アルゴリズムをご覧ください。

K

K 平均法

#clustering

教師なし学習で例をグループ化する一般的なクラスタリング アルゴリズム。k 平均法アルゴリズムは基本的に次のことを行います。

  • 最適な k 個の中心点(セントロイド)を反復的に決定します。
  • 各サンプルを最も近いセントロイドに割り当てます。同じ重心の近くにある例は同じグループに属します。

k 平均法アルゴリズムは、各サンプルから最も近いセントロイドまでの距離の累積平方を最小化するようにセントロイドの位置を選択します。

たとえば、犬の高さと犬の幅の次のプロットについて考えてみましょう。

数十個のデータポイントを含むカーテシアン プロット。

k=3 の場合、K 平均法アルゴリズムは 3 つの重心を決定します。各サンプルは、最も近い重心に割り当てられ、3 つのグループが生成されます。

3 つの重心が追加されていることを除き、前の図と同じカーテシアン プロットです。上記のデータポイントは 3 つの個別のグループにクラスタ化されています。各グループは、特定のセントロイドに最も近いデータポイントを表しています。

犬用のセーターのサイズ(小、中、大)を決定したいとメーカーが考えています。3 つのセントロイドは、そのクラスタ内の各犬の平均高さと平均幅を示します。したがって、メーカーは、これらの 3 つの重心に基づいてセーターサイズを決定する必要があります。通常、クラスタの重心はクラスタ内の例ではありません

上の図は、2 つの特徴量(高さと幅)のみを含む例の K 平均法を示しています。k 平均法では、多くの特徴にわたってサンプルをグループ化できます。

K 中央値

#clustering

k 平均法に密接に関連するクラスタリング アルゴリズム。2 つの実質的な違いは次のとおりです。

  • k 平均法では、セントロイド候補と各サンプル間の距離の二乗の合計を最小化することでセントロイドが決定されます。
  • k-median では、セントロイド候補と各例の間の距離の合計を最小化することでセントロイドが決定されます。

距離の定義も異なります。

  • K 平均法は、セントロイドからサンプルまでのユークリッド距離に依存します。(2 次元では、ユークリッド距離とはピタゴラスの定理を使用して斜辺を計算することを意味します)。たとえば、(2,2)と(5,-2)の間の K 平均法距離は次のようになります。
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • K メディアンは、セントロイドからサンプルまでの マンハッタン距離に依存します。この距離は、各ディメンションの絶対差分の合計です。たとえば、(2,2)と(5,-2)の間の k-median 距離は次のようになります。
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

類似性測度

#clustering

クラスタリング アルゴリズムでは、2 つのサンプルの類似度を判断するために使用される指標。

スケッチ

#clustering

教師なし機械学習では、サンプルに対して予備的な類似性分析を行うアルゴリズムのカテゴリです。スケッチ アルゴリズムは、 局所感度ハッシュ関数を使用して、類似する可能性が高いポイントを特定し、バケットにグループ化します。

スケッチを使用すると、大規模なデータセットでの類似性計算に必要な計算量を削減できます。データセット内のすべてのサンプルペアの類似性を計算するのではなく、各バケット内の各ポイントペアの類似性のみ計算します。

T

時系列分析

#clustering

時系列データを分析する機械学習と統計のサブフィールド。多くの種類の ML 問題では、分類、クラスタリング、予測、異常検出などの時系列分析が必要です。たとえば、時系列分析を使用して、過去の販売データに基づいて冬用コートの今後の販売を月別に予測できます。

U

教師なし機械学習

#clustering
#fundamentals

データセット(通常はラベルなしのデータセット)内のパターンを見つけるようにモデルをトレーニングします。

教師なし機械学習の最も一般的な用途は、データを類似した例のグループにクラスタリングすることです。たとえば、教師なし ML アルゴリズムでは、音楽のさまざまなプロパティに基づいて曲をクラスタリングできます。生成されたクラスタは、他の ML アルゴリズム(音楽レコメンデーション サービスなど)への入力として使用できます。クラスタリングは、有用なラベルが少ない、または存在しない場合に役立ちます。たとえば、不正行為や不正行為防止などのドメインでは、クラスタを使用して人間がデータをより深く理解できます。

教師あり機械学習とは対照的です。