Karena pengelompokan tidak diawasi, kebenaran dasar tersedia untuk diverifikasi hasil pengujian tersebut. Tidak adanya kebenaran akan mempersulit penilaian kualitas. Selain itu, di dunia nyata biasanya tidak memberikan klaster contoh yang jelas seperti dalam yang ditunjukkan pada Gambar 1.
Sebaliknya, data di dunia nyata sering kali terlihat seperti Gambar 2, sehingga sulit untuk menilai kualitas pengelompokan secara visual.
Namun, ada heuristik dan praktik terbaik yang dapat Anda terapkan secara iteratif untuk meningkatkan kualitas pengelompokan Anda. Bagan alir berikut memberikan ringkasan tentang cara mengevaluasi hasil pengelompokan. Kami akan menjelaskan langkah waktu ini.
Langkah 1: Menilai kualitas pengelompokan
Pertama, periksa apakah cluster terlihat seperti yang Anda harapkan, dan itu contoh yang Anda dianggap serupa satu sama lain yang muncul di klaster yang sama.
Kemudian periksa metrik yang biasa digunakan ini (bukan daftar lengkap):
- Kardinalitas klaster
- Magnitudo gugus
- Performa downstream
Kardinalitas klaster
Kardinalitas cluster adalah jumlah contoh per cluster. Petakan kardinalitas klaster untuk semua klaster dan menyelidiki klaster yang merupakan penyimpangan utama. Pada Gambar 2, ini adalah klaster 5.
Magnitudo gugus
Magnitudo cluster adalah jumlah jarak dari semua contoh dalam suatu cluster ke sentroid gugus. Buat plot besaran klaster untuk semua klaster dan menyelidiki pencilan. Pada Gambar 3, cluster 0 merupakan pencilan.
Pertimbangkan juga untuk melihat jarak maksimum atau rata-rata contoh dari sentroid, berdasarkan gugus, untuk menemukan pencilan.
Magnitudo versus kardinalitas
Anda mungkin telah memperhatikan bahwa kardinalitas klaster yang lebih tinggi sesuai dengan magnitudo klaster yang lebih besar, yang memang masuk akal, karena semakin banyak titik dalam klaster (kardinalitas), semakin besar jumlah kemungkinan jarak kedua titik dari sentroid (magnitudo). Anda juga dapat mengidentifikasi klaster anomali dengan mencari angka 1 di mana hubungan antara kardinalitas dan magnitudo sangat berbeda dari klaster lainnya. Pada Gambar 4, menyesuaikan garis ke plot kardinalitas dan magnitudo menunjukkan bahwa klaster 0 anomali. (Cluster 5 juga jauh dari garis, tetapi jika cluster 0 dihilangkan, cluster 0 yang sesuai akan jauh lebih dekat dengan klaster 5.)
Performa downstream
Karena output pengelompokan sering digunakan dalam sistem ML downstream, lihat apakah performa model downstream meningkat saat proses pengelompokan Anda berubah. Cara ini menawarkan evaluasi dunia nyata dari kualitas hasil pengklasteran Anda, meskipun bisa rumit dan mahal untuk melakukan pengujian semacam ini.
Langkah 2: Menilai kembali ukuran kesamaan Anda
Algoritma pengklasteran Anda akan bagus jika tingkat kesamaan Anda diukur. Pastikan ukuran kesamaan Anda menghasilkan hasil yang masuk akal. Pemeriksaan cepat adalah untuk mengidentifikasi pasangan contoh yang diketahui kurang lebih mirip. Hitung mengukur kesamaan untuk setiap pasangan contoh, dan membandingkan hasilnya dengan pengetahuan Anda: pasangan contoh serupa harus memiliki kesamaan yang lebih tinggi ukuran daripada pasangan contoh yang berbeda.
Contoh yang Anda gunakan untuk melakukan {i>spot-check<i} mengenai ukuran kesamaan Anda seharusnya yang mewakili {i>dataset<i}, sehingga Anda dapat yakin bahwa kesamaan Anda mengukur penangguhan untuk semua contoh Anda. Performa ukuran kesamaan, baik manual maupun yang diawasi, harus konsisten di seluruh {i>dataset<i} aslinya. Jika ukuran kesamaan Anda tidak konsisten untuk beberapa contoh, contoh tidak akan dikelompokkan dengan contoh serupa.
Jika Anda menemukan contoh dengan skor kesamaan yang tidak akurat, maka kesamaan Anda mungkin tidak sepenuhnya menangkap data fitur yang membedakan contoh. Bereksperimenlah dengan ukuran kesamaan Anda hingga menghasilkan lebih banyak hasil yang akurat dan konsisten.
Langkah 3: Temukan jumlah klaster yang optimal
k-means mengharuskan Anda untuk menentukan jumlah cluster \(k\) terlebih dahulu. Bagaimana Anda Anda menentukan \(k\)yang optimal? Coba jalankan algoritma dengan meningkatkan nilai \(k\) dan mencatat jumlah semua magnitudo klaster. Sebagai \(k\) bertambah, klaster menjadi lebih kecil, dan total jarak titik dari penurunan sentroid. Kita dapat memperlakukan jarak total ini sebagai kerugian. Petakan jarak ini berdasarkan jumlah klaster.
Seperti yang ditunjukkan pada Gambar 5, di atas \(k\)tertentu, pengurangan kerugian menjadi marginal seiring meningkatnya \(k\). Pertimbangkan untuk menggunakan \(k\) di mana kemiringan terlebih dahulu mengalami perubahan drastis, yang disebut metode elbow. Untuk yang ditampilkan, \(k\) optimalnya adalah sekitar 11. Jika Anda ingin lebih terperinci klaster, Anda dapat memilih \(k\)yang lebih tinggi dengan melihat plot ini.
Pertanyaan pemecahan masalah
Jika Anda menemukan masalah selama evaluasi, nilai ulang data Anda langkah-langkah persiapan dan ukuran kesamaan yang dipilih. Tanyakan:
- Apakah data Anda diskalakan dengan tepat?
- Apakah ukuran kesamaan Anda sudah benar?
- Apakah algoritma Anda melakukan operasi yang bermakna secara semantik pada data?
- Apakah asumsi algoritma Anda sesuai dengan data?