Untuk mengelompokkan data, Anda perlu mengikuti langkah-langkah berikut:
- Menyiapkan data.
- Buat metrik kesamaan.
- Jalankan algoritma pengelompokan.
- Tafsirkan hasilnya dan sesuaikan pengelompokan Anda.
Halaman ini memperkenalkan langkah-langkahnya secara singkat. Kita akan membahas bagian.
Menyiapkan data
Seperti masalah ML lainnya, Anda harus menormalisasi, menskalakan, dan mengubah data fitur sebelum melatih atau menyesuaikan model pada data tersebut. Selain itu, sebelum pengelompokan, pastikan data yang disiapkan memungkinkan Anda menghitung secara akurat kesamaan antar contoh.
Buat metrik kemiripan
Sebelum algoritma pengklasteran dapat mengelompokkan data, algoritma ini perlu mengetahui seberapa serupa pasangan contohnya. Anda dapat mengukur kesamaan antara contoh dengan membuat metrik kesamaan, yang membutuhkan pemahaman yang cermat tentang layanan otomatis dan data skalabel.
Menjalankan algoritma pengelompokan
Algoritma pengklasteran menggunakan metrik kemiripan untuk mengelompokkan data. Kursus ini menggunakan k-means.
Tafsirkan hasil dan sesuaikan
Karena pengklasteran tidak menghasilkan atau menyertakan "kebenaran" dasar yang akan Anda dapat memverifikasi {i>output<i}, penting untuk memeriksa hasilnya terhadap ekspektasi di tingkat klaster dan tingkat contoh. Jika hasil terlihat aneh atau berkualitas rendah, bereksperimenlah dengan tiga langkah sebelumnya. Lanjutkan melakukan iterasi hingga kualitas {i>output<i} memenuhi kebutuhan Anda.