K-ortalamanın avantajları ve dezavantajları

K-ortalamaları, birçok makine öğrenimi bağlamında faydalı ve verimlidir ancak bazı belirgin zayıflıkları vardır.

K-ortalamaların avantajları

Uygulaması nispeten basittir.

Büyük veri kümelerine ölçeklenebilir.

Her zaman yakınsamaktadır.

Merkez noktalarının konumlarını sıcak başlatmaya olanak tanır.

Yeni örneklere sorunsuz bir şekilde uyum sağlar.

Eliptik kümeler gibi farklı şekil ve boyutlardaki kümeler için genelleştirilebilir.

K-ortalamaları genelleme

K-ortalamaların basit bir şekilde uygulanması, farklı yoğunluk ve boyutlardaki kümelerle başa çıkmakta zorlanabilir. Şekil 1'in sol tarafında görmeyi beklediğimiz kümeler, sağ tarafında ise k-ortalama tarafından önerilen kümeler gösterilmektedir.

Yan yana iki grafik. İlkinde, belirgin kümelere sahip bir veri kümesi gösterilmektedir. İkincisi, k-ortalamalar çalıştırıldıktan sonra örneklerin garip bir şekilde gruplandırılmasını göstermektedir. — **Şekil 1: Genelleştirilmemiş k-ortalama örneği.**

Şekil 1'de gösterilenler gibi dengesiz kümelerde daha iyi performans elde etmek için k-ortalamaları genelleştirebilir, yani uyarlayabilirsiniz. Şekil 2'de, iki farklı genellemeyle kümelenmiş üç farklı veri kümesi gösterilmektedir. İlk veri kümesi, genelleme içermeyen k-ortalama yöntemini gösterirken ikinci ve üçüncü veri kümeleri, kümelerin genişliğinin değişmesine izin verir.

Genelleme içermeyen k-ortalamaları, ardından değişen genişliklere izin veren k-ortalamaları ve ardından boyutlar arasında değişen genişliklere izin veren k-ortalamaları gösteren üç grafik. — **Şekil 2: Genelleme içeren ve içermeyen k-ortalama kümeleme.**

Bu kursta k-ortalamaların nasıl genelleştirileceği ele alınmaz ancak bu konuyla ilgilenenler Carnegie Mellon Üniversitesi'nden Carlos Guestrin'in Clustering – k-means Gaussian mixture models (Gruplandırma - k-ortalama Gauss karışım modelleri) başlıklı makalesini inceleyebilir.

K-ortalamanın dezavantajları

\(k\) manuel olarak seçilmelidir.

Sonuçlar, başlangıç değerlerine bağlıdır.

Düşük \(k\)için, k-means'i farklı başlangıç değerleriyle birkaç kez çalıştırıp en iyi sonucu seçerek bu bağımlılığı azaltabilirsiniz. \(k\)arttıkça daha iyi başlangıç merkezi noktaları seçmek için k-ortalama tohumlama kullanmanız gerekir. K-ortalama tohumlama hakkında daha fazla bilgi için M. Emre Celebi, Hassan A. Kingravi ve Patricio A. Vela.

Genelleştirme yapmadan farklı boyut ve yoğunluklardaki verileri gruplandırmanın zorluğu.

Ayrık değerleri kümelemek zordur.

Orta noktalar, aykırı değerler tarafından sürüklenebilir veya aykırı değerler yoksayılmak yerine kendi kümelerini alabilir. Küme oluşturmadan önce aykırı değerleri kaldırmayı veya kırpmayı düşünebilirsiniz.

Boyut sayısıyla ölçeklendirme zorluğu.

Verilerdeki boyut sayısı arttıkça, mesafeye dayalı benzerlik ölçümü, belirli örnekler arasında sabit bir değere yakınsamaya başlar. Özellik verilerinde PCA kullanarak veya kümeleme algoritmasını değiştirmek için spektral kümeleme kullanarak boyutu azaltın.

Boyutluluk sorunu ve spektral küme oluşturma

Bu üç grafikte, boyutlar arttıkça örnekler arasındaki mesafenin standart sapmasının, örnekler arasındaki ortalama mesafeye göre nasıl küçüldüğüne dikkat edin. Bu yakınsama, verilerin boyutu arttıkça k-ortalamaların örnekleri ayırt etme konusunda daha az etkili hale geleceği anlamına gelir. Buna boyut laneti denir.

Boyut sayısı arttıkça örnekler arasındaki mesafenin standart sapmasının nasıl azaldığını gösteren üç nokta grafiği — **Şekil 3: Boyut lanetini gösteren bir gösterim. Her nokta, 200 rastgele nokta arasındaki çift yönlü mesafeleri gösterir.**

Algoritmaya gruplandırma öncesi adımlar ekleyen spektral kümeleme ile performanstaki bu düşüşten kaçınabilirsiniz. Spektral küme oluşturma işlemini gerçekleştirmek için:

PCA'yı kullanarak özellik verilerinin boyutunu azaltın.
Tüm veri noktalarını daha düşük boyutlu alt uzaya yansıtın.
Seçtiğiniz algoritmayı kullanarak bu alt uzaydaki verileri kümelendirin.

Spektral küme oluşturma hakkında daha fazla bilgi için Ulrike von Luxburg'un Spektral Küme Oluşturmayla İlgili Eğitim başlıklı makalesine bakın.

Sonuçları değerlendirme

Otomatik kodlayıcılar, göstergeler ve yerleştirmeler