K 平均法のメリットとデメリット

K 平均法は ML の多くの場面で有用で効率的ですが、 明らかな弱点を確認します

K 平均法のメリット

比較的簡単に実装できる。

大規模なデータセットへのスケーリング。

常に収束します。

重心の位置をウォーム スタートできます。

新しいサンプルにスムーズに適応。

さまざまな異なるタイプのクラスタに一般化できる さまざまな形や大きさに表現されます。

K 平均法の一般化

K 平均法を簡単に実装すると、次のクラスタが さまざまな密度とサイズで提供しています。図 1 の左側は、クラスタ構成と 右側は K 平均法によって提案されたクラスタを示しています。

<ph type="x-smartling-placeholder">
</ph> 2 つのグラフが横並び。最初の画像は、やや明白なクラスタを含むデータセットを示しています。2 つ目は、K 平均法を実行した後の例が奇妙にグループ化されていることを示しています。
図 1: 一般化されていない K 平均法の例

図 1 のような不均衡なクラスタでパフォーマンスを改善するには、 K 平均法を一般化して適応させることができます。図 2 は、 2 つの異なる一般化でクラスタ化されたデータセットです。最初のデータセットは K 平均法です。2 つ目は一般化なしの K 平均法です。2 つ目と 3 つ目は、 幅はさまざまです。

<ph type="x-smartling-placeholder">
</ph> 一般化なしの K 平均法と K 平均法を示す 3 つのグラフ
       K 平均法を使用すると、さまざまな幅に対応できます。
       分析できます
図 2: 一般化ありと一般化なしの K 平均法クラスタリング

K 平均法の一般化については説明しませんが、 クラスタリング – K 平均法ガウス混合法 モデル (カーネギー メロン大学の Carlos Guestrin)氏によるものです。

K 平均法のデメリット

\(k\) は手動で選択する必要があります。

結果は初期値に依存します。

\(k\)が低い場合、K 平均法をいくつか実行することで、この依存関係を緩和できます。 試行を繰り返し、最適な結果を選択します。デバイス名: \(k\) K 平均法シードを使用して、より優れたイニシャルを K 平均法シードの詳細については、 「 K 平均法クラスタリングの効率的な初期化方法の研究 Algorithm」M.Emre Celebi、Hassan A.Kingravi、Patricio A.Vela。

サイズや種類が異なるデータのクラスタリングが困難である 汎用化されていない密度の高さです。

外れ値のクラスタリングの困難さ。

セントロイドが外れ値によって引き寄せられることもあれば、外れ値によって独自のクラスタが作成されることもあります。 表示されます。外れ値を削除するかクリップを 説明します。

ディメンション数によるスケーリングが困難。

データ内の次元数が増えると、距離に基づく類似度が 特定の例の間で定数値に収束する縮小 モデルタイプを PCA 特徴データに対して、またはスペクトル クラスタリングを使用してクラスタリングを変更する アルゴリズムです。

次元数とスペクトル クラスタリングの呪い

これら 3 つのプロットで、寸法が大きくなるにつれて標準偏差がどのように変化するかに注目してください。 サンプル間の距離が減少します 説明します。この 収束するということは、K 平均法によって、2 つの単語と サンプル数が増えますこれは 次元の呪いです。

<ph type="x-smartling-placeholder">
</ph> 次元の数が増えるにつれてサンプル間の距離の標準偏差がどのように減少するかを示す 3 つのプロット
図 3: 次元性の呪いのデモンストレーション。各プロットは、200 個のランダムなポイント間のペアワイズ距離を示しています。

このようなパフォーマンスの低下は、スペクトル クラスタリングを使用することで回避できます。 アルゴリズムに事前クラスタリング ステップが追加されます。スペクトル クラスタリング:

  1. PCA を使用して特徴データの次元を削減する。
  2. すべてのデータポイントを下位次元部分空間に投影します。
  3. 選択したアルゴリズムを使用して、この部分空間内のデータをクラスタ化します。

Spectral のチュートリアル Clustering(スペクトルの詳細については、Ulrike von Luxburg 著) 説明します。