K 平均法は ML の多くの場面で有用で効率的ですが、 明らかな弱点を確認します
K 平均法のメリット
比較的簡単に実装できる。
大規模なデータセットへのスケーリング。
常に収束します。
重心の位置をウォーム スタートできます。
新しいサンプルにスムーズに適応。
さまざまな異なるタイプのクラスタに一般化できる さまざまな形や大きさに表現されます。
K 平均法の一般化
K 平均法を簡単に実装すると、次のクラスタが さまざまな密度とサイズで提供しています。図 1 の左側は、クラスタ構成と 右側は K 平均法によって提案されたクラスタを示しています。
<ph type="x-smartling-placeholder">図 1 のような不均衡なクラスタでパフォーマンスを改善するには、 K 平均法を一般化して適応させることができます。図 2 は、 2 つの異なる一般化でクラスタ化されたデータセットです。最初のデータセットは K 平均法です。2 つ目は一般化なしの K 平均法です。2 つ目と 3 つ目は、 幅はさまざまです。
<ph type="x-smartling-placeholder">K 平均法の一般化については説明しませんが、 クラスタリング – K 平均法ガウス混合法 モデル (カーネギー メロン大学の Carlos Guestrin)氏によるものです。
K 平均法のデメリット
\(k\) は手動で選択する必要があります。
結果は初期値に依存します。
\(k\)が低い場合、K 平均法をいくつか実行することで、この依存関係を緩和できます。 試行を繰り返し、最適な結果を選択します。デバイス名: \(k\) K 平均法シードを使用して、より優れたイニシャルを K 平均法シードの詳細については、 「 K 平均法クラスタリングの効率的な初期化方法の研究 Algorithm」M.Emre Celebi、Hassan A.Kingravi、Patricio A.Vela。
サイズや種類が異なるデータのクラスタリングが困難である 汎用化されていない密度の高さです。
外れ値のクラスタリングの困難さ。
セントロイドが外れ値によって引き寄せられることもあれば、外れ値によって独自のクラスタが作成されることもあります。 表示されます。外れ値を削除するかクリップを 説明します。
ディメンション数によるスケーリングが困難。
データ内の次元数が増えると、距離に基づく類似度が 特定の例の間で定数値に収束する縮小 モデルタイプを PCA 特徴データに対して、またはスペクトル クラスタリングを使用してクラスタリングを変更する アルゴリズムです。
次元数とスペクトル クラスタリングの呪い
これら 3 つのプロットで、寸法が大きくなるにつれて標準偏差がどのように変化するかに注目してください。 サンプル間の距離が減少します 説明します。この 収束するということは、K 平均法によって、2 つの単語と サンプル数が増えますこれは 次元の呪いです。
<ph type="x-smartling-placeholder">このようなパフォーマンスの低下は、スペクトル クラスタリングを使用することで回避できます。 アルゴリズムに事前クラスタリング ステップが追加されます。スペクトル クラスタリング:
- PCA を使用して特徴データの次元を削減する。
- すべてのデータポイントを下位次元部分空間に投影します。
- 選択したアルゴリズムを使用して、この部分空間内のデータをクラスタ化します。
Spectral のチュートリアル Clustering(スペクトルの詳細については、Ulrike von Luxburg 著) 説明します。