K-Mene'in Avantajları ve Dezavantajları

K ortalamasının avantajları

Uygulaması nispeten kolaydır.

Büyük veri kümelerine ölçeklenir.

Birleşmeyi garanti eder.

Merdivenlerin pozisyonlarına kolay bir başlangıç yapabilir.

Yeni örneklere kolayca uyum sağlar.

Eliptik kümeler gibi farklı şekil ve boyutlardaki kümeleri genelleştirir.

k- ortalama Genelleme

Kümeler farklı yoğunluklara ve boyutlara sahip olduğunda ne olur? Şekil 1'e bakın. Sol taraftaki sezgisel kümeleri, sağ taraftaki k ortalama değerleriyle bulunan kümelerle karşılaştırın. Karşılaştırma, k ortalamalarının belirli veri kümelerine nasıl denk geldiğini gösterir.

Yan yana iki grafik. İlk kümede belirgin şekilde kümelenmiş bir veri kümesi gösteriliyor. İkincisi, k ortalamasını çalıştırdıktan sonra tuhaf bir örnek grubu gösteriyor.
Şekil 1: Genelleştirilmemiş k ortalama örneği.

Şekil 1'de gösterilenler gibi doğal dengeli olmayan kümeleri kümelemek için k ortalamalarını uyarlayabilirsiniz (genel yapabilirsiniz). Şekil 2'de çizgiler, k ortalamalarını genelleştirdikten sonra küme sınırlarını gösterir:

  • Sol plan: Genelleştirme yapılmaz ve bu durum, mantıksız bir küme sınırına yol açar.
  • Merkezi plan: Farklı küme genişliklerine izin vererek farklı boyutlarda daha sezgisel gruplar elde edilmesini sağlayın.
  • Sağa doğru plan: Farklı küme genişliklerinin yanı sıra boyut başına farklı genişliklere izin verin. Böylece küresel küme yerine elips şeklinde görüntülenir ve sonuç daha iyi olur.
Yan yana iki grafik. İlki küresel küme örneği, ikincisi ise küresel olmayan küme örneğidir.
Şekil 2: Küre küme örneği ve küresel olmayan küme örneği.

Bu kurs, k ortalamalarını nasıl genelleştireceğinizi açıklamaz. Ancak k-ortalamasını değiştirmenin kolaylığının da güçlü olmasının bir başka nedeni olduğunu unutmayın. K-ortalamasını genelleştirme hakkında bilgi edinmek için Carnegie Mellon Üniversitesi'nden CarlosMisafirrin tarafından sunulan Küme - K-ortalama Gauss karışım modelleri bölümüne bakın.

K ortalamalarının dezavantajları

Manuel olarak \(k\) seçme.

Sonuçları Yorumlama bölümünde açıklandığı gibi, optimum (k) değerini bulmak için "Kayıp ve Kümeler" grafiğini kullanın.

İlk değerlere bağlı olma.

Düşük \(k\)için, k ortalamalarını farklı ilk değerlerle birkaç kez çalıştırarak ve en iyi sonucu seçerek bu bağımlılığı azaltabilirsiniz. Artan \(k\) k-ortalamalarının gelişmiş sürümlerinin, ilk centroid'lerin daha iyi değerlerini (k ortalama değeri Tohumlama olarak adlandırılır) seçmeleri gerekir. K- anlamını tüm yönleriyle açıklamak için K-Mean Kümelemesi için Verimli Başlatma Yöntemlerinin Karşılaştırmalı Çalışması Algoritmanın M. Emre Celebi, Hasan A. Kingravi, Patricio A. Vera.

Farklı boyut ve yoğunluklardaki kümeleme verileri.

k-ortalaması, kümelerin farklı boyutlarda ve yoğunlukta olduğu kümeleri kümelemede sorundur. Bu tür verileri kümelemek için Avantajlar bölümünde açıklandığı gibi k ortalamalarını genelleştirmeniz gerekir.

Kümeleme aykırı değerleri.

Centroidler, aykırı değerler tarafından sürüklenebilir veya aykırı öğeler, yoksaymak yerine kendi kümelerini alabilir. Kümelemeden önce aykırı değerleri kaldırmayı veya kırpmayı düşünün.

Boyutlarla ölçeklendirme.

Boyut sayısı arttıkça, mesafeye dayalı benzerlik ölçümü belirli bir örnek arasında sabit bir değere dönüşür. Özellik verilerinde PCA'yı kullanarak veya küme algoritmasını aşağıda açıklandığı şekilde değiştirmek için "spektral kümeleme"yi kullanarak boyutlamayı azaltın.

Boyutsallık ve Spektral Kümelemenin Başında

Bu grafikler, standart sapmanın örnekler arasındaki mesafe ortalamasına oranının, boyut sayısı arttıkça nasıl azaldığını göstermektedir. Bu yakınlaşma, k ortalamalarının örnekleri ayırt etmekte daha az etkili olduğu anlamına gelir. Yüksek boyutlu verilerin bu negatif sonucu, boyutun köşesi olarak adlandırılır.

Boyutlar arasındaki mesafenin standartlar arasındaki standart sapmasının nasıl azaldığını gösteren üç grafik
Şekil 3: Boyutlandırma kütlesinin tanıtımı. Her düzende, 200 rastgele nokta arasındaki çift mesafeler gösterilir.

Spektral kümeleme, algoritmanıza önceden bir kümeleme adımı ekleyerek boyutun korunmasını önler:

  1. PCA kullanarak özellik verilerinin boyutunu küçültün.
  2. Tüm veri noktalarını daha küçük boyutlu alt alana yansıtın.
  3. Seçtiğiniz algoritmayı kullanarak bu alt alandaki verileri kümeleyin.

Bu nedenle spektral kümeleme ayrı bir kümeleme algoritması değil, herhangi bir kümeleme algoritmasıyla kullanabileceğiniz bir önceden kümeleme adımıdır. Spektral kümelemenin ayrıntıları karmaşıktır. Ulrike von Luxburg'un hazırladığı Spektral Kümelemeyle İlgili Eğiticiyi inceleyin.