Latihan berikut akan memandu Anda dalam proses pembuatan ukuran kesamaan secara manual.
Bayangkan Anda memiliki set data sederhana pada rumah sebagai berikut:
Fitur | Jenis |
---|---|
Harga | Bilangan bulat positif |
Ukuran | Nilai floating point positif dalam satuan meter persegi |
Kode pos | Bilangan Bulat |
Jumlah kamar | Bilangan Bulat |
Jenis rumah | Nilai teks dari “single_family”, “multi-family”, “apartment”, “condo” |
Garasi | 0/1 untuk tidak/ya |
Warna | Kategoris multivalen: satu atau beberapa nilai dari warna standar “putih”, ”kuning”, ”hijau”, dll. |
Pra-pemrosesan
Langkah pertama adalah memproses fitur numerik: harga, ukuran, jumlah kamar tidur, dan kode pos. Untuk setiap fitur ini, Anda harus melakukan operasi yang berbeda. Misalnya, dalam kasus ini, asumsikan bahwa data penetapan mengikuti distribusi bimodal. Apa yang perlu Anda lakukan selanjutnya?
Pada kolom di bawah, coba jelaskan cara Anda memproses data ukuran.
Pada kolom di bawah ini, coba jelaskan cara memproses data tentang jumlah kamar tidur.
Bagaimana sebaiknya Anda merepresentasikan kode pos? Konversikan kode pos menjadi bujur dan lintang. Kemudian, proses nilai tersebut seperti saat Anda memproses nilai numerik lainnya.
Menghitung Kesamaan per Fitur
Sekarang saatnya menghitung kesamaan per fitur. Untuk fitur numerik, Anda cukup menemukan perbedaannya. Untuk fitur biner, seperti jika rumah memiliki garasi, Anda juga dapat menemukan selisihnya untuk mendapatkan 0 atau 1. Namun, bagaimana dengan fitur kategoris? Jawab pertanyaan di bawah untuk mengetahuinya.
Menghitung Kesamaan Keseluruhan
Anda telah menghitung kesamaan pada setiap fitur secara numerik. Namun, algoritme pengelompokan memerlukan kesamaan secara keseluruhan dengan rumah cluster. Hitung kesamaan keseluruhan antara pasangan rumah dengan menggabungkan kesamaan per fitur menggunakan error rata-rata kuadrat (RMSE). Artinya,\(s_1,s_2,\ldots,s_N\) menunjukkan kesamaan untuk \(N\) fitur:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Batasan Pengukuran Kesamaan Manual
Seperti yang telah ditunjukkan dalam latihan ini, saat data menjadi kompleks, semakin sulit untuk memproses dan menggabungkan data untuk mengukur kemiripan secara akurat dengan cara yang bermakna secara semantik. Pertimbangkan data warna. Haruskah warna benar-benar kategoris? Atau haruskah kita menetapkan warna seperti merah dan merah marun agar memiliki kemiripan yang lebih tinggi daripada hitam dan putih? Terkait penggabungan data, kami hanya membobotkan fitur garasi dengan harga rumah. Namun, harga rumah jauh lebih penting daripada memiliki garasi. Apakah benar-benar terasa berat yang sama?
Jika Anda membuat ukuran kesamaan yang tidak benar-benar mencerminkan kesamaan di antara contoh-contoh, cluster turunan Anda tidak akan bermakna. Hal ini sering terjadi pada data kategoris dan membawa kami ke tindakan yang diawasi.