Küme oluşturma işlemi gözetimsiz olduğundan sonuçları doğrulamak için kesin referans veri bulunmaz. Doğruluğun olmaması, kalite değerlendirmelerini zorlaştırır. Ayrıca, gerçek dünyadaki veri kümeleri genellikle Şekil 1'de gösterilen örnekte olduğu gibi belirgin örnek kümeleri sunmaz.

Bunun yerine, gerçek dünyadaki veriler genellikle Şekil 2'ye daha çok benzer. Bu da küme oluşturma kalitesini görsel olarak değerlendirmeyi zorlaştırır.

Bununla birlikte, kümelendirmenizin kalitesini artırmak için yinelemeli olarak uygulayabileceğiniz bazı sezgisel yöntemler ve en iyi uygulamalar vardır. Aşağıdaki akış şemasında, gruplandırma sonuçlarınızı nasıl değerlendireceğinize dair genel bir bakış sunulmaktadır. Her adımı ayrıntılı olarak açıklayacağız.
1. adım: Küme oluşturma işleminin kalitesini değerlendirin
Öncelikle kümelerin beklediğiniz gibi göründüğünden ve birbirine benzer olduğunu düşündüğünüz örneklerin aynı kümede göründüğünden emin olun.
Ardından, yaygın olarak kullanılan şu metrikleri kontrol edin (listedeki metrikler kapsamlı değildir):
- Küme kardinalitesi
- Küme büyüklüğü
- Aşağı akış performansı
Küme kardinalitesi
Küme kardinalitesi, küme başına örnek sayısıdır. Tüm kümeler için küme kardinalitesini çizin ve önemli aykırı değerler olan kümeleri inceleyin. Şekil 2'de bu 5. kümedir.

Küme büyüklüğü
Küme büyüklüğü, bir kümedeki tüm örneklerin kümenin merkezine olan mesafelerinin toplamıdır. Tüm kümeler için küme büyüklüğünü çizin ve aykırı değerleri inceleyin. Şekil 3'te 0 numaralı küme bir aykırı değerdir.
Ayrıca, aykırı değerleri bulmak için örneklerin merkez noktalarına göre küme bazında maksimum veya ortalama mesafesine de bakabilirsiniz.

Büyüklük ve kardinalite
Daha yüksek bir küme kardinalitesi, daha yüksek bir küme büyüklüğüne karşılık gelir. Bu durum, bir kümede ne kadar çok nokta (kardinalitesi) olursa bu noktaların merkeze olan mesafelerinin olası toplamının o kadar büyük olacağı için mantıklıdır. Ayrıca, kardinalite ile büyüklük arasındaki ilişkinin diğer kümelerden çok farklı olduğu kümeleri arayarak da anormal kümeleri belirleyebilirsiniz. Şekil 4'te, kardinalite ve büyüklük grafiğine bir çizginin sığdırılması, 0 kümesinin anormal olduğunu gösterir. (5. küme de satırdan uzaktır ancak 0. küme atlanırsa yeni eklenen satır 5. kümeye çok daha yakın olur.)

Aşağı akış performansı
Küme oluşturma çıkışları genellikle yayın öncesi makine öğrenimi sistemlerinde kullanıldığı için küme oluşturma işleminiz değiştiğinde yayın sonrası model performansının iyileşip iyileşmediğini kontrol edin. Bu tür bir testin yapılması karmaşık ve pahalı olabilir ancak bu yöntem, küme oluşturma sonuçlarınızın kalitesini gerçek dünyada değerlendirmenize olanak tanır.
2. adım: Benzerlik ölçümünüzü yeniden değerlendirin
Küme oluşturma algoritmanızın performansı, benzerlik ölçümünüze bağlıdır. Benzerlik ölçümünüzün makul sonuçlar döndürdüğünden emin olun. Hızlı bir kontrol için aşağı yukarı benzer olduğu bilinen örnek çiftlerini belirleyebilirsiniz. Her örnek çifti için benzerlik ölçümünü hesaplayın ve sonuçlarınızı bilginizle karşılaştırın: Benzer örnek çiftlerinin benzerlik ölçümü, farklı örnek çiftlerine kıyasla daha yüksek olmalıdır.
Benzerlik ölçümünüzü kontrol etmek için kullandığınız örnekler veri kümesini temsil etmelidir. Böylece, benzerlik ölçümünüzün tüm örnekleriniz için geçerli olduğundan emin olabilirsiniz. Manuel veya gözetimli olsun benzerlik ölçümünüzün performansı, veri kümenizde tutarlı olmalıdır. Benzerlik ölçümünüz bazı örnekler için tutarlı değilse bu örnekler benzer örneklerle gruplandırılmaz.
Yanlış benzerlik puanlarına sahip örnekler bulursanız benzerlik ölçütünüz muhtemelen bu örnekleri ayırt eden özellik verilerini tam olarak yakalamıyordur. Daha doğru ve tutarlı sonuçlar döndürecek şekilde benzerlik ölçümünüzle denemeler yapın.
3. adım: Optimum küme sayısını bulun
k-ortalama, kümelerin sayısına önceden karar vermenizi gerektirir. Optimum teklifi nasıl belirlersiniz? Algoritmayı değerlerini artırarak çalıştırmayı deneyin ve tüm küme büyüklüklerinin toplamını not edin. arttıkça kümeler küçülür ve noktaların merkez noktalarına olan toplam mesafesi azalır. Bu toplam mesafeyi kayıp olarak değerlendirebiliriz. Bu mesafeyi küme sayısına göre çizin.
Şekil 5'te gösterildiği gibi, belirli bir değerinin üzerindeki kayıptaki azalma marjinal hale gelir. Eğimin büyük bir değişim gösterdiği bu yönteme dirsek yöntemi denir. Gösterilen grafik için optimum yaklaşık 11'dir. Daha ayrıntılı kümeler tercih ediyorsanız bu grafiğe bakarak daha yüksek bir değer seçebilirsiniz.

Sorun giderme soruları
Değerlendirmeniz sırasında sorun tespit ederseniz veri hazırlama adımlarınızı ve seçtiğiniz benzerlik ölçümünü yeniden değerlendirin. Şu soruyu sorun:
- Verileriniz uygun şekilde ölçeklendirilmiş mi?
- Benzerlik ölçümünüz doğru mu?
- Algoritmanız veriler üzerinde anlamlı işlemler gerçekleştiriyor mu?
- Algoritmanızın varsayımları verilerle eşleşiyor mu?