Banyak Latihan Pemrograman Kursus Singkat Machine Learning menggunakan set data perumahan California, yang berisi data yang diambil dari Sensus Amerika Serikat tahun 1990. Tabel berikut memberikan deskripsi, rentang data, dan jenis data untuk setiap fitur dalam set data.
Judul kolom | Deskripsi | Rentang* | Jenis data |
---|---|---|---|
longitude |
Ukuran seberapa jauh rumah berada di barat; nilai yang lebih negatif lebih jauh ke barat |
|
float64 |
latitude |
Ukuran seberapa jauh rumah berada di bagian utara; nilai yang lebih tinggi lebih jauh ke utara |
|
float64 |
housingMedianAge |
Usia rata-rata rumah dalam satu blok; angka yang lebih rendah adalah bangunan yang lebih baru |
|
float64 |
totalRooms |
Jumlah total ruang dalam satu blok |
|
float64 |
totalBedrooms |
Jumlah total kamar tidur dalam satu blok |
|
float64 |
population |
Jumlah total orang yang tinggal dalam satu blok |
|
float64 |
households |
Jumlah total rumah tangga, yaitu sekelompok orang yang berada dalam satu unit rumah, untuk satu blok |
|
float64 |
medianIncome |
Pendapatan rata-rata untuk anggota keluarga dalam satu blok rumah (diukur dalam puluhan ribu Dolar AS) |
|
float64 |
medianHouseValue |
Nilai rumah median untuk anggota keluarga dalam satu blok (diukur dalam Dolar AS) |
|
float64 |
* Nilai min dan maks pada tabel di bawah diperoleh dari notebook Latihan
menggunakan pandas.DataFrame.describe()
pada set data Perumahan California
Referensi
Kecepatan, R. Kelley, dan Ronald Barry, "Sparse Spatial Autoregressions," Statistik dan Probabilitas Surat, Volume 33, Nomor 3, 5 Mei 1997, hlm. 291-297.
Berikut adalah metodologi data yang dijelaskan dalam makalah:
Kami mengumpulkan informasi tentang variabel menggunakan semua kelompok blok di California dari Sensus 1990. Dalam contoh ini, kelompok blok rata-rata menyertakan 1.425,5 individu yang tinggal di wilayah padat secara geografis. Secara alami, area geografis yang disertakan akan berbalik arah dengan kepadatan populasi. Kami menghitung jarak antar sentroid dari setiap kelompok blok yang diukur dalam garis lintang dan bujur. Kita tidak menyertakan semua grup blok yang melaporkan entri nol untuk variabel independen dan dependen. Data akhir berisi 20.640 pengamatan pada 9 karakteristik.