機械学習の用語集: クラスタリング

このページには、クラスタリングの用語集の用語が含まれています。用語集のすべての用語については、こちらをクリックしてください。

A

集約化クラスタリング

#clustering

階層クラスタリングをご覧ください。

C

centroid

#clustering

K 平均法または K 中央値アルゴリズムによって決定されるクラスタの中心。たとえば、k が 3 の場合、k 平均法または k 中央値アルゴリズムは 3 セントロイドを検出します。

セントロイド ベースのクラスタリング

#clustering

データを階層型ではないクラスタに整理するクラスタリング アルゴリズムのカテゴリ。K 平均法は、最も広く使用されているセントロイド ベースのクラスタリング アルゴリズムです。

対照的な階層クラスタリング アルゴリズム。

クラスタリング

#clustering

関連する(特に教師なし学習の場合)すべての例がグループ化されたら、人間は必要に応じて各クラスタに意味を提供できます。

クラスタリング アルゴリズムは数多く存在します。たとえば、次の図のように、K 平均法アルゴリズムは、セントロイドへの近さに基づいて例をクラスタ化します。

X 軸に「ツリーの幅」、Y 軸に「ツリーの高さ」というラベルが付けられた 2 次元のグラフ。グラフには、2 つのセントロイドと数十のデータポイントが含まれています。データポイントは近接度に基づいて分類されます。つまり、1 つのセントロイドに最も近いデータポイントは ' クラスタ 1' に分類され、他のセントロイドに最も近いデータポイントは ' クラスタ 2' に分類されます。

その後、人間の研究者がクラスタを確認し、クラスタ 1 に「いちごの木」のラベルを、クラスタ 2 に「フルサイズの木」のラベルを付けます。

別の例として、次の例に示すように、中心点からの距離が例であるクラスタリング アルゴリズムについて考えてみます。

数十個のデータポイントは、ダーツボードのまわりにある穴のように、同心円状に配置されています。データポイントの最も内側のリングは ' クラスタ 1' に分類され、中央のリングは ' クラスタ 2' に分類され、最も外側のリングは ' クラスタ 3.' に分類されます。

D

除算クラスタリング

#clustering

階層クラスタリングをご覧ください。

H

階層クラスタリング

#clustering

クラスタのツリーを作成するクラスタリング アルゴリズムのカテゴリ。階層クラスタリングは、植物分類のような階層データに適しています。階層型クラスタリング アルゴリズムには次の 2 種類があります。

  • 集計クラスタリングは、まずすべてのサンプルを独自のクラスタに割り当て、最も近いクラスタを繰り返し集計して、階層ツリーを作成します。
  • 分割クラスタでは、すべての例を 1 つのクラスタにグループ化してから、クラスタを階層ツリーに繰り返し分割します。

対照的に、セントロイド ベースのクラスタリングをご覧ください。

K

K 平均法

#clustering

教師なし学習の例をグループ化する一般的なクラスタリング アルゴリズムです。K 平均法アルゴリズムは、基本的に次のことを行います。

  • 最適な k センター ポイントを繰り返し決定します(セントロイド)。
  • 各サンプルを最も近いセントロイドに割り当てます。同じセントロイドに最も近いこれらの例は、同じグループに属します。

K 平均法アルゴリズムは、各セントロイドから最も近いセントロイドまでの距離の累積二乗を最小限に抑えるためにセントロイドの位置を選択します。

たとえば、以下のように犬の高さと幅をプロットするとします。

数十のデータポイントがあるデカルト図。

k=3 の場合、K 平均法で 3 セントロイドが決定されます。それぞれの例が最も近いセントロイドに割り当てられ、次の 3 つのグループが生成されます。

3 つ目のセントロイドが追加されている点を除いて、前の図と同じデカルト図です。以前のデータポイントは、3 つの異なるグループにクラスタ化されます。各グループは、特定のセントロイドに最も近いデータポイントを表します。

あるメーカーが、犬に最適の小、中、大のセーターを見極めたいと考えているとします。3 つのセントロイドは、そのクラスタ内の各犬の平均の高さと平均の幅を示します。そのため、メーカーはおそらくその 3 セントロイドをベースとするセーターサイズを選ぶ必要があります。通常、クラスタのセントロイドはクラスタ内の例ではありません

上の図は、特徴が 2 つ(高さと幅)しかない K 平均法の例を示しています。K 平均法では、複数の特徴にわたってサンプルをグループ化できます。

k 中央値

#clustering

K 平均法に密接に関連するクラスタリング アルゴリズム。この 2 つの手順の違いは次のとおりです。

  • K 平均法では、セントロイド候補とその各例の間の距離の二乗の合計を最小化して、セントロイドが決定されます。
  • k 中央値では、セントロイド候補と各サンプル間の距離の合計を最小化して、セントロイドが決定されます。

距離の定義も異なります。

  • k 平均法は、セントロイドからサンプルまでのユークリッド距離に依存します。(2 つの次元でユークリッド距離とは、ピタゴラスの定理を使用して斜辺を計算することを意味します)。たとえば、(2,2)と(5,-2)の間の K 平均法距離は次のようになります。
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median は、セントロイドからサンプルまでのマンハッタン距離に依存します。この距離は、各次元の絶対デルタの合計です。たとえば、(2,2)と(5,-2)の間の k 中央値距離は次のようになります。
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

類似性の測定

#clustering

クラスタリング アルゴリズムで、2 つの例の類似度(類似度)を判断するために使用される指標。

スケッチ

#clustering

教師なし機械学習で、サンプルに対して予備類似度分析を行うアルゴリズムのカテゴリ。スケッチ アルゴリズムは、局所性のあるハッシュ関数を使用して、類似している可能性が高いポイントを特定し、バケットにグループ化します。

スケッチでは、大規模なデータセットの類似度の計算に必要な計算を減らします。データセット内のサンプルのペアごとに類似度を計算する代わりに、各バケット内のポイントのペアごとに類似度を計算します。

T

時系列分析

#clustering

一時データを分析する機械学習と統計のサブフィールド。さまざまな種類の機械学習の問題には、分類、クラスタリング、予測、異常検出など、時系列分析が必要です。たとえば、時系列分析を使用して、過去の販売データに基づいて冬のコートの将来の売上を予測できます。

U

教師なし機械学習

#clustering
#fundamentals

データセット(通常はラベルなしデータセット)内のパターンを見つけるためのモデルのトレーニング。

教師なし機械学習の最も一般的な使用例は、データを類似した例のグループごとにクラスタ化することです。たとえば、教師なし機械学習アルゴリズムでは、音楽のさまざまなプロパティに基づいて曲のクラスタを作成できます。生成されるクラスタは、他の機械学習アルゴリズム(音楽レコメンデーション サービスなど)への入力になります。クラスタリングは、有用なラベルが少ない場合または存在しない場合に役立ちます。たとえば、不正防止や不正行為などの領域では、クラスタを使用して人間がデータについて理解を深めることができます。

これとは対照的に、教師あり機械学習です。