Kümeleme denetlenmediğinden kesin referans, doğrulama için kullanılabilir sonuç. Doğruluğun bulunmaması, kalite değerlendirmelerini karmaşık hale getirir. Dahası, veri kümelerinde; örnek Şekil 1'de gösterilmiştir.
Bunun yerine, gerçek dünya verileri genellikle Şekil 2'ye daha çok benzediğinden, Kümeleme kalitesini görsel olarak değerlendirin.
Ancak yinelemeli olarak uygulayabileceğiniz buluşsal yöntemler ve en iyi uygulamalar vardır. kümelemenizin kalitesini artırın. Aşağıdaki akış şemasında kümeleme sonuçlarınızı değerlendirme hakkında genel bakış. Her birini ayrıntılı olarak adımına geçelim.
1. Adım: Kümelemenin kalitesini değerlendirin
Öncelikle kümelerin beklediğiniz gibi görünüp görünmediğini kontrol edin ve ve aynı kümede görünmesidir.
Daha sonra, yaygın olarak kullanılan şu metriklere göz atın (kapsamlı bir liste değildir):
- Küme kardinalitesi
- Küme büyüklüğü
- Satışa dönük performans
Küme kardinalitesi
Küme kardinalitesi, küme başına örnek sayısıdır. Grafikteki küme kardinalitesini artırmak ve tüm kümeler için önemli bir farktır. Şekil 2'de, bu küme 5'tir.
Küme büyüklüğü
Küme büyüklüğü, bir kümedeki tüm örneklere olan mesafelerin toplamıdır kümenin merkezine ekleyebilir. Tüm kümeler ve kümeler için küme büyüklüğünü araştırmak için de kullanılabilir. Şekil 3'te, küme 0 bir aykırı değerdir.
Örneklerin maksimum veya ortalama mesafesine de bakabilirsiniz kümelere göre analiz edebilirsiniz.
Büyüklük ve kardinalite
Daha yüksek küme kardinalitesinin daha yüksek bir küme kardinalitesine karşılık geldiğini bir kümenin büyüklüğü ne kadar büyükse kümesi (kardinalite), bu yıldızların mesafelerinin olası toplamı merkezden (büyüklük) uzaklık. Anormal kümeleri de tanımlayabilirsiniz. kardinalite ile büyüklük arasında bu ilişkinin olduğu durumları diğer kümelerden çok farklıdır. Şekil 4'te, bir çizgiyi kardinalite ve büyüklüğün grafiği, 0. kümenin anormal olduğunu gösterir. (Küme 5 de satırdan uzaktadır, ancak 0. küme atlanırsa, yeni küme sığdırılmış satır küme 5'e çok daha yakın olur.)
Satışa dönük performans
Kümeleme çıkışları genellikle aşağı akış ML sistemlerinde kullanıldığından kümeleme süreciniz değiştiğinde aşağı akış modelinin performansı da artar. Bu, kümeleme sonuçlarınızın kalitesinin gerçek dünyada bir değerlendirmesini sunar. ancak bu tür bir testi yapmak karmaşık ve pahalı olabilir.
2. adım: Benzerlik ölçümünüzü yeniden değerlendirin
Kümeleme algoritmanız ancak benzerlik ölçümünüz kadar iyi sonuç verir. Şunlardan emin olun: mantıklı sonuçlar döndürüyor. Hızlı bir şekilde birbirlerine daha çok veya daha az benzer olduğu bilinen örnek çiftlerini tanımlama Hesaplama benzerliklerini ölçüp tartın ve sonuçlarınızı benzer örnek çiftlerinin benzerlik oranı daha yüksek olmalıdır. farklı örnek çiftlerinden daha büyük önem taşır.
Benzerlik ölçümünüzde ara kontrol için kullandığınız örnekler, temsil eder, böylece benzerliğinizin ve benzerliğinizin tüm örnekleriniz için muhafazaları ölçmelisiniz. Sitenizin performansı benzerlik ölçüsü (manuel veya gözetimli ya da gözetimli) ve reklam öğesi grubu genelinde veri kümesiyle eşleştirilir. Benzerlik ölçümünüz bazı örneklerde tutarsızsa bu örnekler örnekler, benzer örneklerle kümelenmez.
Benzerlik puanlarının yanlış olduğu örnekler bulursanız benzerlik düzeyiniz ayırt edici özellik verilerini tam olarak yakalamayabilir. örnekler. Daha fazla sonuç verene kadar benzerlik ölçümünüzle denemeler yapın doğru ve tutarlı sonuçlar sağlar.
3. Adım: Optimum küme sayısını bulma
k-ortalama için küme sayısına önceden \(k\) karar vermek gerekir. TSSB sizce optimum \(k\)mu? Algoritmayı artan \(k\) değerlerini elde edin ve tüm küme büyüklüklerinin toplamını not edin. Farklı \(k\) artış, kümeler küçülme ve noktaların toplam mesafesi yüzde 95'e ulaştı. Bu toplam mesafeyi bir kayıp olarak kabul edebiliriz. Bu mesafeyi küme sayısına göre çizin.
Şekil 5'te gösterildiği gibi, belirli bir \(k\)değerinin üzerinde kayıptaki azalma azımsanacak gibi \(k\). Şu özelliklerden faydalanabilirsiniz: \(k\) Buradaki ilk büyük değişiklik, eğim açısında dirsek yöntemi. en ideali yaklaşık \(k\) 11'dir. Daha ayrıntılı bilgi vermeyi tercih ederseniz kümeler üzerinde çalışıyorsanız bu grafikle daha yüksek \(k\)bir değer seçebilirsiniz.
Sorun giderme soruları
Değerlendirmeniz sırasında sorunlarla karşılaşırsanız verilerinizi yeniden değerlendirin. ve seçilen benzerlik ölçümünü gösterir. Şu soruyu sorun:
- Verileriniz uygun şekilde ölçeklendirildi mi?
- Benzerlik ölçümünüz doğru mu?
- Algoritmanız veriler üzerinde anlam açısından anlamlı işlemler gerçekleştiriyor mu?
- Algoritmanızın varsayımları verilerle eşleşiyor mu?