Mengevaluasi hasil

Karena pengelompokan tidak diawasi, kebenaran dasar tersedia untuk diverifikasi hasil pengujian tersebut. Tidak adanya kebenaran akan mempersulit penilaian kualitas. Selain itu, di dunia nyata biasanya tidak memberikan klaster contoh yang jelas seperti dalam yang ditunjukkan pada Gambar 1.

Grafik yang menunjukkan tiga kelompok titik data yang jelas
Gambar 1: Plot data yang ideal. Data di dunia nyata jarang terlihat seperti ini.

Sebaliknya, data di dunia nyata sering kali terlihat seperti Gambar 2, sehingga sulit untuk menilai kualitas pengelompokan secara visual.

Grafik dengan titik data acak
Gambar 2: Plot data yang lebih realistis

Namun, ada heuristik dan praktik terbaik yang dapat Anda terapkan secara iteratif untuk meningkatkan kualitas pengelompokan Anda. Bagan alir berikut memberikan ringkasan tentang cara mengevaluasi hasil pengelompokan. Kami akan menjelaskan langkah waktu ini.

Diagram alir visual proses verifikasi
Klik di sini untuk melihat versi diagram yang lebih besar.

Langkah 1: Menilai kualitas pengelompokan

Pertama, periksa apakah cluster terlihat seperti yang Anda harapkan, dan itu contoh yang Anda dianggap serupa satu sama lain yang muncul di klaster yang sama.

Kemudian periksa metrik yang biasa digunakan ini (bukan daftar lengkap):

  • Kardinalitas klaster
  • Magnitudo gugus
  • Performa downstream

Kardinalitas klaster

Kardinalitas cluster adalah jumlah contoh per cluster. Petakan kardinalitas klaster untuk semua klaster dan menyelidiki klaster yang merupakan penyimpangan utama. Pada Gambar 2, ini adalah klaster 5.

Diagram batang yang menunjukkan kardinalitas
dari beberapa klaster. Cluster 5 lebih kecil dari yang lain.
Gambar 2: Kardinalitas beberapa klaster.

Magnitudo gugus

Magnitudo cluster adalah jumlah jarak dari semua contoh dalam suatu cluster ke sentroid gugus. Buat plot besaran klaster untuk semua klaster dan menyelidiki pencilan. Pada Gambar 3, cluster 0 merupakan pencilan.

Pertimbangkan juga untuk melihat jarak maksimum atau rata-rata contoh dari sentroid, berdasarkan gugus, untuk menemukan pencilan.

Diagram batang yang
menunjukkan besarnya
          beberapa klaster. Cluster 0 jauh lebih besar daripada yang lain.
Gambar 3: Besarnya beberapa klaster.

Magnitudo versus kardinalitas

Anda mungkin telah memperhatikan bahwa kardinalitas klaster yang lebih tinggi sesuai dengan magnitudo klaster yang lebih besar, yang memang masuk akal, karena semakin banyak titik dalam klaster (kardinalitas), semakin besar jumlah kemungkinan jarak kedua titik dari sentroid (magnitudo). Anda juga dapat mengidentifikasi klaster anomali dengan mencari angka 1 di mana hubungan antara kardinalitas dan magnitudo sangat berbeda dari klaster lainnya. Pada Gambar 4, menyesuaikan garis ke plot kardinalitas dan magnitudo menunjukkan bahwa klaster 0 anomali. (Cluster 5 juga jauh dari garis, tetapi jika cluster 0 dihilangkan, cluster 0 yang sesuai akan jauh lebih dekat dengan klaster 5.)

Diagram pencar (scatter plot) yang menampilkan
          kardinalitas versus magnitudo untuk beberapa klaster. paket Premium AI
          cluster merupakan {i>outlier <i}pada plot.
Gambar 4: Kardinalitas vs. magnitudo untuk klaster yang ditunjukkan sebelumnya.

Performa downstream

Karena output pengelompokan sering digunakan dalam sistem ML downstream, lihat apakah performa model downstream meningkat saat proses pengelompokan Anda berubah. Cara ini menawarkan evaluasi dunia nyata dari kualitas hasil pengklasteran Anda, meskipun bisa rumit dan mahal untuk melakukan pengujian semacam ini.

Langkah 2: Menilai kembali ukuran kesamaan Anda

Algoritma pengklasteran Anda akan bagus jika tingkat kesamaan Anda diukur. Pastikan ukuran kesamaan Anda menghasilkan hasil yang masuk akal. Pemeriksaan cepat adalah untuk mengidentifikasi pasangan contoh yang diketahui kurang lebih mirip. Hitung mengukur kesamaan untuk setiap pasangan contoh, dan membandingkan hasilnya dengan pengetahuan Anda: pasangan contoh serupa harus memiliki kesamaan yang lebih tinggi ukuran daripada pasangan contoh yang berbeda.

Contoh yang Anda gunakan untuk melakukan {i>spot-check<i} mengenai ukuran kesamaan Anda seharusnya yang mewakili {i>dataset<i}, sehingga Anda dapat yakin bahwa kesamaan Anda mengukur penangguhan untuk semua contoh Anda. Performa ukuran kesamaan, baik manual maupun yang diawasi, harus konsisten di seluruh {i>dataset<i} aslinya. Jika ukuran kesamaan Anda tidak konsisten untuk beberapa contoh, contoh tidak akan dikelompokkan dengan contoh serupa.

Jika Anda menemukan contoh dengan skor kesamaan yang tidak akurat, maka kesamaan Anda mungkin tidak sepenuhnya menangkap data fitur yang membedakan contoh. Bereksperimenlah dengan ukuran kesamaan Anda hingga menghasilkan lebih banyak hasil yang akurat dan konsisten.

Langkah 3: Temukan jumlah klaster yang optimal

k-means mengharuskan Anda untuk menentukan jumlah cluster \(k\) terlebih dahulu. Bagaimana Anda Anda menentukan \(k\)yang optimal? Coba jalankan algoritma dengan meningkatkan nilai \(k\) dan mencatat jumlah semua magnitudo klaster. Sebagai \(k\) bertambah, klaster menjadi lebih kecil, dan total jarak titik dari penurunan sentroid. Kita dapat memperlakukan jarak total ini sebagai kerugian. Petakan jarak ini berdasarkan jumlah klaster.

Seperti yang ditunjukkan pada Gambar 5, di atas \(k\)tertentu, pengurangan kerugian menjadi marginal seiring meningkatnya \(k\). Pertimbangkan untuk menggunakan \(k\) di mana kemiringan terlebih dahulu mengalami perubahan drastis, yang disebut metode elbow. Untuk yang ditampilkan, \(k\) optimalnya adalah sekitar 11. Jika Anda ingin lebih terperinci klaster, Anda dapat memilih \(k\)yang lebih tinggi dengan melihat plot ini.

Grafik yang menunjukkan penurunan
dibandingkan klaster yang digunakan. Kerugian akan berkurang seiring dengan bertambahnya jumlah klaster sampai
tingkatannya mencapai 
sekitar 10 klaster
Gambar 5: Kerugian versus jumlah klaster

Pertanyaan pemecahan masalah

Jika Anda menemukan masalah selama evaluasi, nilai ulang data Anda langkah-langkah persiapan dan ukuran kesamaan yang dipilih. Tanyakan:

  • Apakah data Anda diskalakan dengan tepat?
  • Apakah ukuran kesamaan Anda sudah benar?
  • Apakah algoritma Anda melakukan operasi yang bermakna secara semantik pada data?
  • Apakah asumsi algoritma Anda sesuai dengan data?