Apa itu pengklasteran?

Misalkan Anda mengerjakan {i>dataset <i}yang berisikan informasi pasien dari sebuah sistem layanan kesehatan. {i>Dataset<i} ini kompleks dan mencakup baik kategoris maupun fitur numerik. Anda ingin menemukan pola dan kesamaan dalam {i>dataset<i} tersebut. Bagaimana Anda akan melakukan tugas ini?

Clustering adalah metode unsupervised teknik machine learning yang dirancang untuk mengelompokkan contoh tak berlabel berdasarkan kesamaan mereka satu sama lain. (Jika contoh diberi label, jenis pengelompokan disebut klasifikasi.) Pertimbangkan seorang pasien hipotetis yang dirancang untuk mengevaluasi protokol pengobatan baru. Selama penelitian, pasien laporkan berapa kali per minggu mereka mengalami gejala dan tingkat keparahan gejala. Peneliti dapat menggunakan analisis pengelompokan untuk mengelompokkan pasien dengan respons perlakuan menjadi beberapa cluster. Gambar 1 menunjukkan satu kemungkinan pengelompokan data simulasi menjadi tiga klaster.

Di sebelah kiri, grafik tingkat keparahan gejala vs. jumlah gejala
   menampilkan titik data yang menyarankan tiga klaster.
   Di sebelah kanan, grafik yang sama tetapi masing-masing dari tiga klaster berwarna.
Gambar 1: Contoh tak berlabel dikelompokkan ke dalam tiga klaster (data simulasi).

Dengan melihat data tidak berlabel di sebelah kiri Gambar 1, Anda bisa menebak data membentuk tiga klaster, bahkan tanpa definisi formal tentang kesamaan antartitik data. Dalam aplikasi dunia nyata, namun, Anda perlu secara eksplisit menentukan ukuran kemiripan, atau metrik yang digunakan untuk membandingkan sampel, dalam syarat-syarat fitur set data. Ketika contoh hanya memiliki beberapa fitur, memvisualisasikan dan mengukur kesamaan sangatlah mudah. Tapi karena jumlah fitur meningkat, menggabungkan dan membandingkan fitur menjadi kurang intuitif dan lebih kompleks. Langkah-langkah kesamaan yang berbeda mungkin lebih atau kurang tepat berbagai skenario pengklasteran, dan kursus ini akan membahas pemilihan mengukur kesamaan yang sesuai di bagian selanjutnya: Ukuran kesamaan manual dan Ukuran kesamaan dari embedding.

Setelah pengelompokan, setiap grup diberi label unik yang disebut ID cluster. Pengelompokan sangat penting karena dapat menyederhanakan {i>dataset<i} yang besar dan kompleks dengan banyak fitur ke satu ID cluster.

Mengelompokkan kasus penggunaan

Pengelompokan berguna di berbagai industri. Beberapa aplikasi umum untuk pengelompokan:

  • Segmentasi pasar
  • Analisis jejaring sosial
  • Pengelompokan hasil penelusuran
  • Pencitraan medis
  • Segmentasi gambar
  • Deteksi anomali

Beberapa contoh spesifik pengelompokan:

  • Diagram Hertzsprung-Russell menunjukkan gugus bintang jika dipetakan berdasarkan luminositas dan suhu.
  • Pengurutan gen yang menunjukkan kesamaan genetik dan perbedaan antara spesies telah menyebabkan revisi taksonomi sebelumnya berdasarkan penampilan.
  • 5 Besar dari ciri kepribadian ini dikembangkan dengan mengelompokkan kata-kata yang menggambarkan kepribadian menjadi 5 kelompok. Tujuan HEXACO menggunakan 6 klaster, bukan 5.

Imputasi

Jika beberapa contoh dalam cluster tidak memiliki data fitur, Anda dapat menyimpulkan data yang hilang dari contoh lain dalam cluster. Hal ini disebut imputasi. Misalnya, video yang kurang populer dapat dikelompokkan dengan video yang lebih populer untuk meningkatkan kualitas rekomendasi video.

Kompresi data

Seperti yang telah dibahas, ID cluster yang relevan dapat menggantikan fitur lain untuk semua yang berbeda di cluster tersebut. Substitusi ini mengurangi jumlah fitur dan sehingga mengurangi resource yang dibutuhkan untuk menyimpan, memproses, dan melatih model berdasarkan data tersebut. Untuk kumpulan data yang sangat besar, penghematan ini menjadi signifikan.

Sebagai contoh, satu video YouTube dapat memiliki data fitur termasuk:

  • lokasi, waktu, dan demografi penonton
  • stempel waktu, teks, dan ID pengguna komentar
  • tag video

Pengelompokan video YouTube menggantikan serangkaian fitur ini dengan ID cluster tunggal, sehingga mengompresi data.

Menjaga privasi

Anda dapat menjaga privasi dengan mengelompokkan pengguna dan mengaitkannya dengan ID cluster, bukan ID pengguna. Untuk memberikan satu contoh yang memungkinkan, misalkan Anda ingin melatih model pada di histori tontonan. Daripada meneruskan ID pengguna ke model, Anda dapat mengelompokkan pengguna dan meneruskan ID cluster saja. Ini menjaga riwayat tontonan individual agar tidak dikaitkan dengan pengguna individu. Catatan bahwa cluster harus berisi jumlah pengguna yang cukup besar untuk menjaga privasi.