K-ortalamanın avantajları ve dezavantajları

K-ortalama, birçok makine öğrenimi bağlamında kullanışlı ve verimlidir. zayıf noktaları var.

K-ortalamanın avantajları

Uygulaması nispeten basittir.

Büyük veri kümelerine ölçeklenir.

Her zaman birleşir.

Centroid'lerin konumlarının hazır olarak başlatılmasına olanak tanır.

Yeni örneklere sorunsuz bir şekilde uyum sağlar.

Farklı kümelere genelleştirilebilir farklı şekil ve boyutların kullanılmasını sağlayın.

K-ortalamaları genelleştirme

K-ortalamanın basit bir şekilde uygulanması, farklı yoğunluklara ve boyutlara sahip. Şekil 1'in sol tarafında, sağ taraf, k-ortalama tarafından önerilen kümeleri gösterir.

Yan yana iki grafik. İlkinde, kümeler oldukça bariz olan bir veri kümesi gösteriliyor. İkincisinde ise k-ortalamanın çalıştırılmasından sonra gelen tek sayıdaki örnek grup gösteriliyor.
Şekil 1: Genelleştirilmemiş k-ortalama örneği.

Şekil 1'de gösterilenler gibi dengesiz kümelerde daha iyi performans için "k-ortalama" yani "uyarlanabilir" diyebiliriz. Şekil 2'de üç farklı iki farklı genellemeyle kümelenen veri kümeleri. İlk veri kümesi, k-ortalaması, genelleştirme yapılmadan ortaya çıkarken ikinci ve üçüncü değişiklik gösterir.

Genelleme yapılmadan k-ortalamaları ve ardından k-ortalamaları gösteren üç grafik
       değişken genişliklere izin veriyorsa, k-değişen genişliklere izin vermek anlamına gelir
       yardımcı olabilir.
Şekil 2: Genelleştirme içeren ve içermeyen kümeleme k-ortalaması.

Bu kursta k-ortalamanın nasıl genelleştirileceği ele alınmamaktadır, ancak ilgilenenler Kümeleme – k-ortalama Gauss karışımı modeller Carnegie Mellon Üniversitesi'nden Carlos Guestrin tarafından.

K-ortalamanın dezavantajları

\(k\) manuel olarak seçilmelidir.

Sonuçlar ilk değerlere bağlıdır.

Düşük \(k\)için k-ortalamayı çalıştırarak bu bağımlılığı azaltabilirsiniz. en iyi sonucu seçerek farklı başlangıç değerlerine sahip zamanları ayarlayın. \(k\)olarak değeri artarsa daha iyi bir başlangıç seçmek için k-ortalama tohumlama centroids K-ortalama tohumlama hakkında ayrıntılı bilgi için bkz. "Karşılaştırma K-Ortalama Kümelemesi İçin Etkili Başlatma Yöntemlerinin Çalışması Algoritma, M. Emre Çelebi, Hasan A. Kingravi ve Patricio A. Yel.

Çeşitli boyutlarda ve farklı boyutlarda verileri kümeleme yoğunlukları olabilir.

Aksesuarları kümeleme konusunda zorluk.

Centroidler aykırı değerler tarafından sürüklenebilir veya aykırı değerler kendi kümelerine sahip olabilir akılda kalıcı bir yolunu sunar. Aykırı değerleri kaldırmadan veya kırpmadan önce kümeleme gibi.

Boyut sayısı nedeniyle ölçeklendirme yapmak zordur.

Verilerdeki boyutların sayısı arttıkça mesafeye dayalı benzerlik verilen örnekler arasında sabit bir değere yakınlaşır. Azalt ya da farklı boyutlarda PCA kümelemeyi değiştirmek için özellik verilerine göre veya spektral kümeleme kullanarak algoritmasında yer alır.

Boyutluluk ve spektral kümeleme laneti

Bu üç grafikte, boyutlar büyüdükçe standart sapmanın örnekler arasındaki mesafe, arasındaki ortalama mesafeye göre küçülür örnekler. Bu yakınsaklık, k-ortalamanın birbirinden ayırt edilmesinde daha az etkili örneklere göz atın. Buna denir boyutluluğun laneti.

Boyut sayısı arttıkça örnekler arasındaki standart sapmanın nasıl azaldığını gösteren üç grafik
Şekil 3: Boyutsallığın laneti gösterimi. Her grafik, 200 rastgele nokta arasındaki ikili mesafeyi gösterir.

Spetral kümeleme sayesinde performanstaki bu düşüşü önleyebilirsiniz. Bu işlem, algoritmaya ön kümeleme adımları ekler. Spektral uygulamak için kümeleme:

  1. PCA kullanarak özellik verilerinin boyutluluğunu azaltın.
  2. Tüm veri noktalarını daha düşük boyutlu alt uzaya yansıtın.
  3. Seçtiğiniz algoritmayı kullanarak bu alt uzaydaki verileri kümeleyin.

Bkz. Spectral Hakkında Bir Eğitim Spektral hakkında daha fazla bilgi için Ulrike von Luxburg tarafından yapılan kümeleme kümeleme gibi.