K ortalamasının avantajları
Uygulaması nispeten kolaydır.
Büyük veri kümelerine ölçeklenir.
Birleşmeyi garanti eder.
Merdivenlerin pozisyonlarına kolay bir başlangıç yapabilir.
Yeni örneklere kolayca uyum sağlar.
Eliptik kümeler gibi farklı şekil ve boyutlardaki kümeleri genelleştirir.
k- ortalama Genelleme
Kümeler farklı yoğunluklara ve boyutlara sahip olduğunda ne olur? Şekil 1'e bakın. Sol taraftaki sezgisel kümeleri, sağ taraftaki k ortalama değerleriyle bulunan kümelerle karşılaştırın. Karşılaştırma, k ortalamalarının belirli veri kümelerine nasıl denk geldiğini gösterir.
Şekil 1'de gösterilenler gibi doğal dengeli olmayan kümeleri kümelemek için k ortalamalarını uyarlayabilirsiniz (genel yapabilirsiniz). Şekil 2'de çizgiler, k ortalamalarını genelleştirdikten sonra küme sınırlarını gösterir:
- Sol plan: Genelleştirme yapılmaz ve bu durum, mantıksız bir küme sınırına yol açar.
- Merkezi plan: Farklı küme genişliklerine izin vererek farklı boyutlarda daha sezgisel gruplar elde edilmesini sağlayın.
- Sağa doğru plan: Farklı küme genişliklerinin yanı sıra boyut başına farklı genişliklere izin verin. Böylece küresel küme yerine elips şeklinde görüntülenir ve sonuç daha iyi olur.
Bu kurs, k ortalamalarını nasıl genelleştireceğinizi açıklamaz. Ancak k-ortalamasını değiştirmenin kolaylığının da güçlü olmasının bir başka nedeni olduğunu unutmayın. K-ortalamasını genelleştirme hakkında bilgi edinmek için Carnegie Mellon Üniversitesi'nden CarlosMisafirrin tarafından sunulan Küme - K-ortalama Gauss karışım modelleri bölümüne bakın.
K ortalamalarının dezavantajları
Manuel olarak \(k\) seçme.
Sonuçları Yorumlama bölümünde açıklandığı gibi, optimum (k) değerini bulmak için "Kayıp ve Kümeler" grafiğini kullanın.
İlk değerlere bağlı olma.
Düşük \(k\)için, k ortalamalarını farklı ilk değerlerle birkaç kez çalıştırarak ve en iyi sonucu seçerek bu bağımlılığı azaltabilirsiniz. Artan \(k\) k-ortalamalarının gelişmiş sürümlerinin, ilk centroid'lerin daha iyi değerlerini (k ortalama değeri Tohumlama olarak adlandırılır) seçmeleri gerekir. K- anlamını tüm yönleriyle açıklamak için K-Mean Kümelemesi için Verimli Başlatma Yöntemlerinin Karşılaştırmalı Çalışması Algoritmanın M. Emre Celebi, Hasan A. Kingravi, Patricio A. Vera.
Farklı boyut ve yoğunluklardaki kümeleme verileri.
k-ortalaması, kümelerin farklı boyutlarda ve yoğunlukta olduğu kümeleri kümelemede sorundur. Bu tür verileri kümelemek için Avantajlar bölümünde açıklandığı gibi k ortalamalarını genelleştirmeniz gerekir.
Kümeleme aykırı değerleri.
Centroidler, aykırı değerler tarafından sürüklenebilir veya aykırı öğeler, yoksaymak yerine kendi kümelerini alabilir. Kümelemeden önce aykırı değerleri kaldırmayı veya kırpmayı düşünün.
Boyutlarla ölçeklendirme.
Boyut sayısı arttıkça, mesafeye dayalı benzerlik ölçümü belirli bir örnek arasında sabit bir değere dönüşür. Özellik verilerinde PCA'yı kullanarak veya küme algoritmasını aşağıda açıklandığı şekilde değiştirmek için "spektral kümeleme"yi kullanarak boyutlamayı azaltın.
Boyutsallık ve Spektral Kümelemenin Başında
Bu grafikler, standart sapmanın örnekler arasındaki mesafe ortalamasına oranının, boyut sayısı arttıkça nasıl azaldığını göstermektedir. Bu yakınlaşma, k ortalamalarının örnekleri ayırt etmekte daha az etkili olduğu anlamına gelir. Yüksek boyutlu verilerin bu negatif sonucu, boyutun köşesi olarak adlandırılır.
Spektral kümeleme, algoritmanıza önceden bir kümeleme adımı ekleyerek boyutun korunmasını önler:
- PCA kullanarak özellik verilerinin boyutunu küçültün.
- Tüm veri noktalarını daha küçük boyutlu alt alana yansıtın.
- Seçtiğiniz algoritmayı kullanarak bu alt alandaki verileri kümeleyin.
Bu nedenle spektral kümeleme ayrı bir kümeleme algoritması değil, herhangi bir kümeleme algoritmasıyla kullanabileceğiniz bir önceden kümeleme adımıdır. Spektral kümelemenin ayrıntıları karmaşıktır. Ulrike von Luxburg'un hazırladığı Spektral Kümelemeyle İlgili Eğiticiyi inceleyin.