Latihan Ukur Kesamaan Manual

Latihan berikut akan memandu Anda dalam proses pembuatan ukuran kesamaan secara manual.

Bayangkan Anda memiliki set data sederhana pada rumah sebagai berikut:

FiturJenis
HargaBilangan bulat positif
Ukuran Nilai floating point positif dalam satuan meter persegi
Kode posBilangan Bulat
Jumlah kamarBilangan Bulat
Jenis rumahNilai teks dari “single_family”, “multi-family”, “apartment”, “condo”
Garasi0/1 untuk tidak/ya
WarnaKategoris multivalen: satu atau beberapa nilai dari warna standar “putih”, ”kuning”, ”hijau”, dll.

Pra-pemrosesan

Langkah pertama adalah memproses fitur numerik: harga, ukuran, jumlah kamar tidur, dan kode pos. Untuk setiap fitur ini, Anda harus melakukan operasi yang berbeda. Misalnya, dalam kasus ini, asumsikan bahwa data penetapan mengikuti distribusi bimodal. Apa yang perlu Anda lakukan selanjutnya?

Tindakan apa yang harus Anda lakukan jika data Anda mengikuti distribusi bimodal?
Buat kuantil dari data dan skalakan ke [0,1].
Ini adalah langkah yang benar untuk diambil saat data mengikuti distribusi bimodal.
Catat transformasi dan penskalaan ke [0,1].
Ini sebenarnya langkah yang harus diambil saat data mengikuti distribusi Power-law.
Normalisasi dan skalakan ke [0,1].
Ini adalah langkah yang akan Anda ambil saat data mengikuti distribusi Gaussian.

Pada kolom di bawah, coba jelaskan cara Anda memproses data ukuran.

Pada kolom di bawah ini, coba jelaskan cara memproses data tentang jumlah kamar tidur.

Bagaimana sebaiknya Anda merepresentasikan kode pos? Konversikan kode pos menjadi bujur dan lintang. Kemudian, proses nilai tersebut seperti saat Anda memproses nilai numerik lainnya.

Menghitung Kesamaan per Fitur

Sekarang saatnya menghitung kesamaan per fitur. Untuk fitur numerik, Anda cukup menemukan perbedaannya. Untuk fitur biner, seperti jika rumah memiliki garasi, Anda juga dapat menemukan selisihnya untuk mendapatkan 0 atau 1. Namun, bagaimana dengan fitur kategoris? Jawab pertanyaan di bawah untuk mengetahuinya.

Manakah dari fitur berikut yang multivalen (dapat memiliki beberapa nilai)?
Warna
Perumahan tertentu dapat memiliki lebih dari satu warna, misalnya, biru dengan trim putih. Oleh karena itu, warna adalah fitur multivalen.
Kode pos
Semua tempat tinggal hanya dapat memiliki satu kode pos. Ini adalah fitur yang tidak merata.
Jenis
Rumah Anda hanya dapat berupa satu jenis, rumah, apartemen, kondominium, dll. yang berarti merupakan fitur yang setara.
Manakah jenis ukuran kesamaan yang sebaiknya Anda gunakan untuk menghitung kesamaan suatu fitur yang bersifat multivalen?
Kesamaan Jaccard
Misalnya, rumah diberi warna dari kumpulan warna tetap. Kemudian, hitung kemiripan menggunakan rasio nilai yang sama (kemiripan Jaccard).
Jarak Euclidean
Untuk fitur "kode pos" dan "jenis" yang hanya memiliki satu nilai (fitur sepadan), jika fitur cocok, ukuran kesamaannya adalah 0; jika tidak, ukuran kesamaannya adalah 1.

Menghitung Kesamaan Keseluruhan

Anda telah menghitung kesamaan pada setiap fitur secara numerik. Namun, algoritme pengelompokan memerlukan kesamaan secara keseluruhan dengan rumah cluster. Hitung kesamaan keseluruhan antara pasangan rumah dengan menggabungkan kesamaan per fitur menggunakan error rata-rata kuadrat (RMSE). Artinya,\(s_1,s_2,\ldots,s_N\) menunjukkan kesamaan untuk \(N\) fitur:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Batasan Pengukuran Kesamaan Manual

Seperti yang telah ditunjukkan dalam latihan ini, saat data menjadi kompleks, semakin sulit untuk memproses dan menggabungkan data untuk mengukur kemiripan secara akurat dengan cara yang bermakna secara semantik. Pertimbangkan data warna. Haruskah warna benar-benar kategoris? Atau haruskah kita menetapkan warna seperti merah dan merah marun agar memiliki kemiripan yang lebih tinggi daripada hitam dan putih? Terkait penggabungan data, kami hanya membobotkan fitur garasi dengan harga rumah. Namun, harga rumah jauh lebih penting daripada memiliki garasi. Apakah benar-benar terasa berat yang sama?

Jika Anda membuat ukuran kesamaan yang tidak benar-benar mencerminkan kesamaan di antara contoh-contoh, cluster turunan Anda tidak akan bermakna. Hal ini sering terjadi pada data kategoris dan membawa kami ke tindakan yang diawasi.