Sonuçları değerlendirme

Kümeleme denetlenmediğinden kesin referans, doğrulama için kullanılabilir sonuç. Doğruluğun bulunmaması, kalite değerlendirmelerini karmaşık hale getirir. Dahası, veri kümelerinde; örnek Şekil 1'de gösterilmiştir.

Üç net veri noktası grubunu gösteren grafik
Şekil 1: İdeal bir veri grafiği. Gerçek veriler nadiren böyle görünür.

Bunun yerine, gerçek dünya verileri genellikle Şekil 2'ye daha çok benzediğinden, Kümeleme kalitesini görsel olarak değerlendirin.

Rastgele veri noktaları içeren bir grafik
Şekil 2: Daha gerçekçi bir veri grafiği

Ancak yinelemeli olarak uygulayabileceğiniz buluşsal yöntemler ve en iyi uygulamalar vardır. kümelemenizin kalitesini artırın. Aşağıdaki akış şemasında kümeleme sonuçlarınızı değerlendirme hakkında genel bakış. Her birini ayrıntılı olarak adımına geçelim.

Doğrulama sürecinin akış şeması
Bu grafiğin daha büyük bir sürümünü görmek için burayı tıklayın.

1. Adım: Kümelemenin kalitesini değerlendirin

Öncelikle kümelerin beklediğiniz gibi görünüp görünmediğini kontrol edin ve ve aynı kümede görünmesidir.

Daha sonra, yaygın olarak kullanılan şu metriklere göz atın (kapsamlı bir liste değildir):

  • Küme kardinalitesi
  • Küme büyüklüğü
  • Satışa dönük performans

Küme kardinalitesi

Küme kardinalitesi, küme başına örnek sayısıdır. Grafikteki küme kardinalitesini artırmak ve tüm kümeler için önemli bir farktır. Şekil 2'de, bu küme 5'tir.

Kardinaliteyi gösteren bir çubuk grafik
şeklinde özetlenebilir. 5. küme diğerlerinden daha küçük.
Şekil 2: Birkaç kümenin kardinalitesi.

Küme büyüklüğü

Küme büyüklüğü, bir kümedeki tüm örneklere olan mesafelerin toplamıdır kümenin merkezine ekleyebilir. Tüm kümeler ve kümeler için küme büyüklüğünü araştırmak için de kullanılabilir. Şekil 3'te, küme 0 bir aykırı değerdir.

Örneklerin maksimum veya ortalama mesafesine de bakabilirsiniz kümelere göre analiz edebilirsiniz.

Projenin büyüklüğünü gösteren bir çubuk grafik
          görebilirsiniz. 0. küme diğerlerden çok daha büyük.
Şekil 3: Birkaç kümenin büyüklüğü.

Büyüklük ve kardinalite

Daha yüksek küme kardinalitesinin daha yüksek bir küme kardinalitesine karşılık geldiğini bir kümenin büyüklüğü ne kadar büyükse kümesi (kardinalite), bu yıldızların mesafelerinin olası toplamı merkezden (büyüklük) uzaklık. Anormal kümeleri de tanımlayabilirsiniz. kardinalite ile büyüklük arasında bu ilişkinin olduğu durumları diğer kümelerden çok farklıdır. Şekil 4'te, bir çizgiyi kardinalite ve büyüklüğün grafiği, 0. kümenin anormal olduğunu gösterir. (Küme 5 de satırdan uzaktadır, ancak 0. küme atlanırsa, yeni küme sığdırılmış satır küme 5'e çok daha yakın olur.)

Dağılım grafiği
          ve birkaç kümenin kardinalitesini karşılaştırabilirsiniz. Bir
          kümenin aykırı olduğunu
anladık.
Şekil 4: Daha önce gösterilen kümeler için kardinalite ve büyüklüğün karşılaştırması.

Satışa dönük performans

Kümeleme çıkışları genellikle aşağı akış ML sistemlerinde kullanıldığından kümeleme süreciniz değiştiğinde aşağı akış modelinin performansı da artar. Bu, kümeleme sonuçlarınızın kalitesinin gerçek dünyada bir değerlendirmesini sunar. ancak bu tür bir testi yapmak karmaşık ve pahalı olabilir.

2. adım: Benzerlik ölçümünüzü yeniden değerlendirin

Kümeleme algoritmanız ancak benzerlik ölçümünüz kadar iyi sonuç verir. Şunlardan emin olun: mantıklı sonuçlar döndürüyor. Hızlı bir şekilde birbirlerine daha çok veya daha az benzer olduğu bilinen örnek çiftlerini tanımlama Hesaplama benzerliklerini ölçüp tartın ve sonuçlarınızı benzer örnek çiftlerinin benzerlik oranı daha yüksek olmalıdır. farklı örnek çiftlerinden daha büyük önem taşır.

Benzerlik ölçümünüzde ara kontrol için kullandığınız örnekler, temsil eder, böylece benzerliğinizin ve benzerliğinizin tüm örnekleriniz için muhafazaları ölçmelisiniz. Sitenizin performansı benzerlik ölçüsü (manuel veya gözetimli ya da gözetimli) ve reklam öğesi grubu genelinde veri kümesiyle eşleştirilir. Benzerlik ölçümünüz bazı örneklerde tutarsızsa bu örnekler örnekler, benzer örneklerle kümelenmez.

Benzerlik puanlarının yanlış olduğu örnekler bulursanız benzerlik düzeyiniz ayırt edici özellik verilerini tam olarak yakalamayabilir. örnekler. Daha fazla sonuç verene kadar benzerlik ölçümünüzle denemeler yapın doğru ve tutarlı sonuçlar sağlar.

3. Adım: Optimum küme sayısını bulma

k-ortalama için küme sayısına önceden \(k\) karar vermek gerekir. TSSB sizce optimum \(k\)mu? Algoritmayı artan \(k\) değerlerini elde edin ve tüm küme büyüklüklerinin toplamını not edin. Farklı \(k\) artış, kümeler küçülme ve noktaların toplam mesafesi yüzde 95'e ulaştı. Bu toplam mesafeyi bir kayıp olarak kabul edebiliriz. Bu mesafeyi küme sayısına göre çizin.

Şekil 5'te gösterildiği gibi, belirli bir \(k\)değerinin üzerinde kayıptaki azalma azımsanacak gibi \(k\). Şu özelliklerden faydalanabilirsiniz: \(k\) Buradaki ilk büyük değişiklik, eğim açısında dirsek yöntemi. en ideali yaklaşık \(k\) 11'dir. Daha ayrıntılı bilgi vermeyi tercih ederseniz kümeler üzerinde çalışıyorsanız bu grafikle daha yüksek \(k\)bir değer seçebilirsiniz.

Kaybını gösteren bir grafik
ve kullanılan kümeler karşılaştırmasıdır. Küme sayısı arttıkça kayıp azalır:
yaklaşık 10 kümeyi kullanarak
Şekil 5: Kayıp ve küme sayısı karşılaştırması

Sorun giderme soruları

Değerlendirmeniz sırasında sorunlarla karşılaşırsanız verilerinizi yeniden değerlendirin. ve seçilen benzerlik ölçümünü gösterir. Şu soruyu sorun:

  • Verileriniz uygun şekilde ölçeklendirildi mi?
  • Benzerlik ölçümünüz doğru mu?
  • Algoritmanız veriler üzerinde anlam açısından anlamlı işlemler gerçekleştiriyor mu?
  • Algoritmanızın varsayımları verilerle eşleşiyor mu?