Sonuçları değerlendirme

Küme oluşturma işlemi gözetimsiz olduğundan sonuçları doğrulamak için kesin referans veri bulunmaz. Doğruluğun olmaması, kalite değerlendirmelerini zorlaştırır. Ayrıca, gerçek dünyadaki veri kümeleri genellikle Şekil 1'de gösterilen örnekte olduğu gibi belirgin örnek kümeleri sunmaz.

Üç net veri noktası grubunu gösteren bir grafik
Şekil 1: İdeal bir veri noktaları grafiği. Gerçek yaşam verileri nadiren böyle görünür.

Bunun yerine, gerçek dünyadaki veriler genellikle Şekil 2'ye daha çok benzer. Bu da küme oluşturma kalitesini görsel olarak değerlendirmeyi zorlaştırır.

Rastgele veri noktaları içeren bir grafik
Şekil 2: Daha gerçekçi bir veri noktaları grafiği

Bununla birlikte, kümelendirmenizin kalitesini artırmak için yinelemeli olarak uygulayabileceğiniz bazı sezgisel yöntemler ve en iyi uygulamalar vardır. Aşağıdaki akış şemasında, gruplandırma sonuçlarınızı nasıl değerlendireceğinize dair genel bir bakış sunulmaktadır. Her adımı ayrıntılı olarak açıklayacağız.

Doğrulama sürecinin görsel akış şeması
Bu grafiğin daha büyük bir versiyonunu görmek için burayı tıklayın.

1. adım: Küme oluşturma işleminin kalitesini değerlendirin

Öncelikle kümelerin beklediğiniz gibi göründüğünden ve birbirine benzer olduğunu düşündüğünüz örneklerin aynı kümede göründüğünden emin olun.

Ardından, yaygın olarak kullanılan şu metrikleri kontrol edin (listedeki metrikler kapsamlı değildir):

  • Küme kardinalitesi
  • Küme büyüklüğü
  • Aşağı akış performansı

Küme kardinalitesi

Küme kardinalitesi, küme başına örnek sayısıdır. Tüm kümeler için küme kardinalitesini çizin ve önemli aykırı değerler olan kümeleri inceleyin. Şekil 2'de bu 5. kümedir.

Birkaç kümenin kardinalitesini gösteren çubuk grafik. 5. küme diğerlerinden daha küçüktür.
Şekil 2: Çeşitli kümelerin kardinalitesidir.

Küme büyüklüğü

Küme büyüklüğü, bir kümedeki tüm örneklerin kümenin merkezine olan mesafelerinin toplamıdır. Tüm kümeler için küme büyüklüğünü çizin ve aykırı değerleri inceleyin. Şekil 3'te 0 numaralı küme bir aykırı değerdir.

Ayrıca, aykırı değerleri bulmak için örneklerin merkez noktalarına göre küme bazında maksimum veya ortalama mesafesine de bakabilirsiniz.

Çeşitli kümelerin büyüklüğünü gösteren bir çubuk grafik. 0 numaralı küme diğerlerinden çok daha büyüktür.
Şekil 3: Birkaç kümenin büyüklüğü.

Büyüklük ve kardinalite

Daha yüksek bir küme kardinalitesi, daha yüksek bir küme büyüklüğüne karşılık gelir. Bu durum, bir kümede ne kadar çok nokta (kardinalitesi) olursa bu noktaların merkeze olan mesafelerinin olası toplamının o kadar büyük olacağı için mantıklıdır. Ayrıca, kardinalite ile büyüklük arasındaki ilişkinin diğer kümelerden çok farklı olduğu kümeleri arayarak da anormal kümeleri belirleyebilirsiniz. Şekil 4'te, kardinalite ve büyüklük grafiğine bir çizginin sığdırılması, 0 kümesinin anormal olduğunu gösterir. (5. küme de satırdan uzaktır ancak 0. küme atlanırsa yeni eklenen satır 5. kümeye çok daha yakın olur.)

Birkaç kümenin kardinalitesini ve büyüklüğünü gösteren bir dağılım grafiği. Bir küme, grafikte aykırı değerdir.
Şekil 4: Daha önce gösterilen kümeler için kardinalite ve büyüklük.

Aşağı akış performansı

Küme oluşturma çıkışları genellikle yayın öncesi makine öğrenimi sistemlerinde kullanıldığı için küme oluşturma işleminiz değiştiğinde yayın sonrası model performansının iyileşip iyileşmediğini kontrol edin. Bu tür bir testin yapılması karmaşık ve pahalı olabilir ancak bu yöntem, küme oluşturma sonuçlarınızın kalitesini gerçek dünyada değerlendirmenize olanak tanır.

2. adım: Benzerlik ölçümünüzü yeniden değerlendirin

Küme oluşturma algoritmanızın performansı, benzerlik ölçümünüze bağlıdır. Benzerlik ölçümünüzün makul sonuçlar döndürdüğünden emin olun. Hızlı bir kontrol için aşağı yukarı benzer olduğu bilinen örnek çiftlerini belirleyebilirsiniz. Her örnek çifti için benzerlik ölçümünü hesaplayın ve sonuçlarınızı bilginizle karşılaştırın: Benzer örnek çiftlerinin benzerlik ölçümü, farklı örnek çiftlerine kıyasla daha yüksek olmalıdır.

Benzerlik ölçümünüzü kontrol etmek için kullandığınız örnekler veri kümesini temsil etmelidir. Böylece, benzerlik ölçümünüzün tüm örnekleriniz için geçerli olduğundan emin olabilirsiniz. Manuel veya gözetimli olsun benzerlik ölçümünüzün performansı, veri kümenizde tutarlı olmalıdır. Benzerlik ölçümünüz bazı örnekler için tutarlı değilse bu örnekler benzer örneklerle gruplandırılmaz.

Yanlış benzerlik puanlarına sahip örnekler bulursanız benzerlik ölçütünüz muhtemelen bu örnekleri ayırt eden özellik verilerini tam olarak yakalamıyordur. Daha doğru ve tutarlı sonuçlar döndürecek şekilde benzerlik ölçümünüzle denemeler yapın.

3. adım: Optimum küme sayısını bulun

k-ortalama, kümelerin sayısına k önceden karar vermenizi gerektirir. Optimum teklifi nasıl belirlersiniz? kAlgoritmayı k değerlerini artırarak çalıştırmayı deneyin ve tüm küme büyüklüklerinin toplamını not edin.k arttıkça kümeler küçülür ve noktaların merkez noktalarına olan toplam mesafesi azalır. Bu toplam mesafeyi kayıp olarak değerlendirebiliriz. Bu mesafeyi küme sayısına göre çizin.

Şekil 5'te gösterildiği gibi, belirli bir kdeğerinin üzerindeki kkayıptaki azalma marjinal hale gelir. Eğimin büyük bir değişim gösterdiği k bu yönteme dirsek yöntemi denir. Gösterilen grafik için optimum k yaklaşık 11'dir. Daha ayrıntılı kümeler tercih ediyorsanız bu grafiğe bakarak daha yüksek bir değer seçebilirsiniz. k

Kaybın, kullanılan kümelere göre gösterildiği bir grafik. Küme sayısı arttıkça kayıp azalır ve 10 kümeye ulaştığında sabitlenir.
Şekil 5: Kayıp ve küme sayısı

Sorun giderme soruları

Değerlendirmeniz sırasında sorun tespit ederseniz veri hazırlama adımlarınızı ve seçtiğiniz benzerlik ölçümünü yeniden değerlendirin. Şu soruyu sorun:

  • Verileriniz uygun şekilde ölçeklendirilmiş mi?
  • Benzerlik ölçümünüz doğru mu?
  • Algoritmanız veriler üzerinde anlamlı işlemler gerçekleştiriyor mu?
  • Algoritmanızın varsayımları verilerle eşleşiyor mu?