機械学習の用語集: クラスタリング

このページでは、クラスタリングの用語集の用語について説明します。すべての用語集の用語については、こちらをクリックしてください。

A

凝集クラスタリング

#clustering

階層型クラスタリングをご覧ください。

C

centroid

#clustering

k-means アルゴリズムまたは k-median アルゴリズムによって決定されるクラスタの中心。たとえば、k が 3 の場合、k-means または k-median アルゴリズムは 3 つの重心を検出します。

セントロイドに基づくクラスタリング

#clustering

データを非階層型クラスタに編成するクラスタリング アルゴリズムのカテゴリ。k-means は、最も広く使用されているセントロイド ベースのクラスタリング アルゴリズムです。

階層型クラスタリング アルゴリズムと比較してください。

クラスタリング

#clustering

グループ化に関連する。特に教師なし学習中。すべての例がグループ化されると、人間は必要に応じて各クラスタに意味を指定できます。

多くのクラスタリング アルゴリズムが存在します。たとえば、k-means アルゴリズムは、次の図に示すように、セントロイドへの近さに基づいて例をクラスタ化します。

X 軸に「ツリーの幅」、Y 軸に「ツリーの高さ」のラベルが付けられた 2 次元のグラフ。グラフには、2 つの重心と数十のデータポイントが含まれています。データポイントは近接度に基づいて分類されます。つまり、一方のセントロイドに最も近いデータポイントは「クラスタ 1」として分類され、もう一方のセントロイドに最も近いデータポイントは「クラスタ 2」に分類されます。

その後、人間の研究者がクラスタを審査します。たとえば、クラスタ 1 に「ドワーフの木」、クラスタ 2 に「フルサイズの木」というラベルを付けます。

別の例として、次に示す例のように、中心点からの距離に基づくクラスタリング アルゴリズムについて考えてみましょう。

数十のデータポイントが同心円状に並んでいて、ダーツボードの中心の穴のような形になっています。データポイントの最も内側のリングは「クラスタ 1」に、中央のリングは「クラスタ 2」に、最も外側のリングは「クラスタ 3」に分類されます。

D.

除算クラスタリング

#clustering

階層型クラスタリングをご覧ください。

H

階層クラスタリング

#clustering

クラスタのツリーを作成するクラスタリング アルゴリズムのカテゴリ。階層クラスタリングは、植物分類などの階層データに適しています。階層型クラスタリング アルゴリズムには次の 2 種類があります。

  • 集約クラスタリングは、すべてのサンプルをまず独自のクラスタに割り当て、最も近いクラスタを繰り返しマージして階層ツリーを作成します。
  • 分割クラスタリングは、すべての例を 1 つのクラスタにグループ化してから、クラスタを繰り返し階層ツリーに分割します。

セントロイドに基づくクラスタリングとは対照的です。

K

K 平均法

#clustering

教師なし学習における例をグループ化する、一般的なクラスタリング アルゴリズム。K 平均法では、基本的に次の処理を行います。

  • 最適な k 中心点(重心)を繰り返し決定します。
  • 各サンプルを最も近いセントロイドに割り当てます。同じ重心に最も近い例は、同じグループに属します。

k 平均法アルゴリズムは、各サンプルから最も近い重心までの累積二乗を最小にするために、重心位置を選択します。

たとえば、犬の身長と犬の幅をプロットするとします。

数十のデータポイントを持つデカルト図。

k=3 の場合、k-means アルゴリズムによって 3 つの重心が決定されます。各例は、最も近いセントロイドに割り当てられ、次の 3 つのグループが生成されます。

前の図と同じデカルトプロットですが、3 つの重心が追加されています。以前のデータポイントは、3 つのグループに分けられています。各グループは、特定の重心に最も近いデータポイントを表します。

メーカーが犬用の小、中、大のセーターのサイズを判別したいとします。3 つの重心が、そのクラスタ内の各犬の平均身長と平均幅を識別します。したがって、メーカーはこれらの 3 セントをベースとしているでしょう。通常、クラスタのセントロイドはクラスタ内のサンプルではありません。

上の図は、高さと幅の 2 つの特徴のみを含む例の K 平均法を示しています。k 平均法では、多くの特徴にわたってサンプルをグループ化できます。

k-中央値

#clustering

k-means に密接に関連するクラスタリング アルゴリズム。この 2 つの指標の違いは次のとおりです。

  • k 平均法において、重心は、重心候補と各例の間の距離の二乗の合計を最小化することによって決定されます。
  • k 中央値では、セントロイド候補と各例の間の距離の合計を最小化することで、重心が決定されます。

距離の定義も異なります。

  • k-means は、重心から例までのユークリッド距離に依存します。(ユークリッド距離とは、2 次元ではピタゴラスの定理を使用して斜辺を計算することを意味します)。たとえば、(2,2)と(5,-2)の間の k 平均法距離は次のようになります。
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median は、重心から例までの マンハッタン距離に依存します。この距離は、各ディメンションの絶対差分の合計です。たとえば、(2,2)と(5,-2)の間の k の中央値距離は次のようになります。
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

類似度の測定

#clustering

クラスタリング アルゴリズムでは、2 つのサンプルがどの程度類似しているかを判断するために使用される指標です。

スケッチ

#clustering

教師なし機械学習において、サンプルに対して予備類似分析を行うアルゴリズムのカテゴリ。スケッチ アルゴリズムでは、 局所性ハッシュ関数を使用して類似した可能性のあるポイントを特定し、バケットにグループ化します。

スケッチにより、大規模なデータセットの類似度の計算に必要な計算が減ります。類似度はデータセットのサンプルの組み合わせごとに計算されるのではなく、バケット内の各ポイントのペアごとに類似度が計算されます。

時系列分析

#clustering

時間データを分析する機械学習と統計のサブフィールド。分類、クラスタリング、予測、異常検出など、多くの種類の機械学習の問題には時系列分析が必要です。たとえば、時系列分析を使用すると、過去の売り上げデータに基づいて将来の冬物コートの売り上げを予測できます。

U

教師なし機械学習

#clustering
#fundamentals

モデルをトレーニングして、データセット内のパターン、通常はラベルの付いていないデータセットを見つけます。

教師なし機械学習の最も一般的な用途は、類似例のグループへのデータの分類です。たとえば、教師なし機械学習アルゴリズムは、音楽のさまざまな特性に基づいて曲をクラスタ化できます。結果として得られたクラスタは、他の機械学習アルゴリズム(音楽のレコメンデーション サービスなど)への入力になります。クラスタリングは、有用なラベルが不足している場合または存在しない場合に役立ちます。たとえば、不正使用対策や不正行為対策などのドメインでは、クラスタを使用してデータをより深く理解できます。

教師あり機械学習とは対照的です。