Halaman ini diterjemahkan oleh Cloud Translation API.

Latihan Ukur Kesamaan Manual

Latihan berikut akan memandu Anda dalam proses pembuatan ukuran kesamaan secara manual.

Bayangkan Anda memiliki set data sederhana pada rumah sebagai berikut:

Fitur	Jenis
Harga	Bilangan bulat positif
Ukuran	Nilai floating point positif dalam satuan meter persegi
Kode pos	Bilangan Bulat
Jumlah kamar	Bilangan Bulat
Jenis rumah	Nilai teks dari “single_family”, “multi-family”, “apartment”, “condo”
Garasi	0/1 untuk tidak/ya
Warna	Kategoris multivalen: satu atau beberapa nilai dari warna standar “putih”, ”kuning”, ”hijau”, dll.

Pra-pemrosesan

Langkah pertama adalah memproses fitur numerik: harga, ukuran, jumlah kamar tidur, dan kode pos. Untuk setiap fitur ini, Anda harus melakukan operasi yang berbeda. Misalnya, dalam kasus ini, asumsikan bahwa data penetapan mengikuti distribusi bimodal. Apa yang perlu Anda lakukan selanjutnya?

Tindakan apa yang harus Anda lakukan jika data Anda mengikuti distribusi bimodal?

Buat kuantil dari data dan skalakan ke [0,1].

Ini adalah langkah yang benar untuk diambil saat data mengikuti distribusi bimodal.

Catat transformasi dan penskalaan ke [0,1].

Ini sebenarnya langkah yang harus diambil saat data mengikuti distribusi Power-law.

Normalisasi dan skalakan ke [0,1].

Ini adalah langkah yang akan Anda ambil saat data mengikuti distribusi Gaussian.

Pada kolom di bawah, coba jelaskan cara Anda memproses data ukuran.

Saya akan memproses data ukuran terlebih dahulu dengan:

Klik ikon plus untuk memeriksa jawaban Anda

Periksa apakah ukuran mengikuti distribusi hukum daya, Poisson, atau Gaussian.

Power-law: Log mengubah dan menskalakan ke [0,1].
Poisson: Buat kuantil dan skalakan ke [0,1].
Gaussian: Normalisasi dan skalakan ke [0,1].

Pada kolom di bawah ini, coba jelaskan cara memproses data tentang jumlah kamar tidur.

Saya akan memproses jumlah kamar tidur terlebih dahulu dengan:

Klik ikon plus untuk memeriksa jawaban Anda

Periksa distribusi untuk jumlah kamar tidur. Kemungkinan besar, memotong pencilan dan menskalakan ke [0,1] sudah cukup, tetapi jika Anda menemukan distribusi power-law, transformasi log mungkin diperlukan.

Bagaimana sebaiknya Anda merepresentasikan kode pos? Konversikan kode pos menjadi bujur dan lintang. Kemudian, proses nilai tersebut seperti saat Anda memproses nilai numerik lainnya.

Menghitung Kesamaan per Fitur

Sekarang saatnya menghitung kesamaan per fitur. Untuk fitur numerik, Anda cukup menemukan perbedaannya. Untuk fitur biner, seperti jika rumah memiliki garasi, Anda juga dapat menemukan selisihnya untuk mendapatkan 0 atau 1. Namun, bagaimana dengan fitur kategoris? Jawab pertanyaan di bawah untuk mengetahuinya.

Manakah dari fitur berikut yang multivalen (dapat memiliki beberapa nilai)?

Warna

Perumahan tertentu dapat memiliki lebih dari satu warna, misalnya, biru dengan trim putih. Oleh karena itu, warna adalah fitur multivalen.

Kode pos

Semua tempat tinggal hanya dapat memiliki satu kode pos. Ini adalah fitur yang tidak merata.

Jenis

Rumah Anda hanya dapat berupa satu jenis, rumah, apartemen, kondominium, dll. yang berarti merupakan fitur yang setara.

Manakah jenis ukuran kesamaan yang sebaiknya Anda gunakan untuk menghitung kesamaan suatu fitur yang bersifat multivalen?

Kesamaan Jaccard

Misalnya, rumah diberi warna dari kumpulan warna tetap. Kemudian, hitung kemiripan menggunakan rasio nilai yang sama (kemiripan Jaccard).

Jarak Euclidean

Untuk fitur "kode pos" dan "jenis" yang hanya memiliki satu nilai (fitur sepadan), jika fitur cocok, ukuran kesamaannya adalah 0; jika tidak, ukuran kesamaannya adalah 1.

Menghitung Kesamaan Keseluruhan

Anda telah menghitung kesamaan pada setiap fitur secara numerik. Namun, algoritme pengelompokan memerlukan kesamaan secara keseluruhan dengan rumah cluster. Hitung kesamaan keseluruhan antara pasangan rumah dengan menggabungkan kesamaan per fitur menggunakan error rata-rata kuadrat (RMSE). Artinya,\(s_1,s_2,\ldots,s_N\) menunjukkan kesamaan untuk \(N\) fitur:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Batasan Pengukuran Kesamaan Manual

Seperti yang telah ditunjukkan dalam latihan ini, saat data menjadi kompleks, semakin sulit untuk memproses dan menggabungkan data untuk mengukur kemiripan secara akurat dengan cara yang bermakna secara semantik. Pertimbangkan data warna. Haruskah warna benar-benar kategoris? Atau haruskah kita menetapkan warna seperti merah dan merah marun agar memiliki kemiripan yang lebih tinggi daripada hitam dan putih? Terkait penggabungan data, kami hanya membobotkan fitur garasi dengan harga rumah. Namun, harga rumah jauh lebih penting daripada memiliki garasi. Apakah benar-benar terasa berat yang sama?

Jika Anda membuat ukuran kesamaan yang tidak benar-benar mencerminkan kesamaan di antara contoh-contoh, cluster turunan Anda tidak akan bermakna. Hal ini sering terjadi pada data kategoris dan membawa kami ke tindakan yang diawasi.

Sebelumnya

Pengukuran Kesamaan Manual

Berikutnya

Latihan Pemrograman Kesamaan Manual