K-ortalamaları, birçok makine öğrenimi bağlamında faydalı ve verimlidir ancak bazı belirgin zayıflıkları vardır.
K-ortalamaların avantajları
Uygulaması nispeten basittir.
Büyük veri kümelerine ölçeklenebilir.
Her zaman yakınsamaktadır.
Merkez noktalarının konumlarını sıcak başlatmaya olanak tanır.
Yeni örneklere sorunsuz bir şekilde uyum sağlar.
Eliptik kümeler gibi farklı şekil ve boyutlardaki kümeler için genelleştirilebilir.
K-ortalamaları genelleme
K-ortalamaların basit bir şekilde uygulanması, farklı yoğunluk ve boyutlardaki kümelerle başa çıkmakta zorlanabilir. Şekil 1'in sol tarafında görmeyi beklediğimiz kümeler, sağ tarafında ise k-ortalama tarafından önerilen kümeler gösterilmektedir.
Şekil 1'de gösterilenler gibi dengesiz kümelerde daha iyi performans elde etmek için k-ortalamaları genelleştirebilir, yani uyarlayabilirsiniz. Şekil 2'de, iki farklı genellemeyle kümelenmiş üç farklı veri kümesi gösterilmektedir. İlk veri kümesi, genelleme içermeyen k-ortalama yöntemini gösterirken ikinci ve üçüncü veri kümeleri, kümelerin genişliğinin değişmesine izin verir.
Bu kursta k-ortalamaların nasıl genelleştirileceği ele alınmaz ancak bu konuyla ilgilenenler Carnegie Mellon Üniversitesi'nden Carlos Guestrin'in Clustering – k-means Gaussian mixture models (Gruplandırma - k-ortalama Gauss karışım modelleri) başlıklı makalesini inceleyebilir.
K-ortalamanın dezavantajları
manuel olarak seçilmelidir.
Sonuçlar, başlangıç değerlerine bağlıdır.
Düşük için, k-means'i farklı başlangıç değerleriyle birkaç kez çalıştırıp en iyi sonucu seçerek bu bağımlılığı azaltabilirsiniz. arttıkça daha iyi başlangıç merkezi noktaları seçmek için k-ortalama tohumlama kullanmanız gerekir. K-ortalama tohumlama hakkında daha fazla bilgi için M. Emre Celebi, Hassan A. Kingravi ve Patricio A. Vela.
Genelleştirme yapmadan farklı boyut ve yoğunluklardaki verileri gruplandırmanın zorluğu.
Ayrık değerleri kümelemek zordur.
Orta noktalar, aykırı değerler tarafından sürüklenebilir veya aykırı değerler yoksayılmak yerine kendi kümelerini alabilir. Küme oluşturmadan önce aykırı değerleri kaldırmayı veya kırpmayı düşünebilirsiniz.
Boyut sayısıyla ölçeklendirme zorluğu.
Verilerdeki boyut sayısı arttıkça, mesafeye dayalı benzerlik ölçümü, belirli örnekler arasında sabit bir değere yakınsamaya başlar. Özellik verilerinde PCA kullanarak veya kümeleme algoritmasını değiştirmek için spektral kümeleme kullanarak boyutu azaltın.
Boyutluluk sorunu ve spektral küme oluşturma
Bu üç grafikte, boyutlar arttıkça örnekler arasındaki mesafenin standart sapmasının, örnekler arasındaki ortalama mesafeye göre nasıl küçüldüğüne dikkat edin. Bu yakınsama, verilerin boyutu arttıkça k-ortalamaların örnekleri ayırt etme konusunda daha az etkili hale geleceği anlamına gelir. Buna boyut laneti denir.
Algoritmaya gruplandırma öncesi adımlar ekleyen spektral kümeleme ile performanstaki bu düşüşten kaçınabilirsiniz. Spektral küme oluşturma işlemini gerçekleştirmek için:
- PCA'yı kullanarak özellik verilerinin boyutunu azaltın.
- Tüm veri noktalarını daha düşük boyutlu alt uzaya yansıtın.
- Seçtiğiniz algoritmayı kullanarak bu alt uzaydaki verileri kümelendirin.
Spektral küme oluşturma hakkında daha fazla bilgi için Ulrike von Luxburg'un Spektral Küme Oluşturmayla İlgili Eğitim başlıklı makalesine bakın.