Saat Anda menjelajahi data untuk menentukan cara terbaik dalam merepresentasikannya dalam model, penting juga untuk mempertimbangkan masalah keadilan dan mengaudit potensi sumber bias secara proaktif.
Di mana bias dapat terlihat? Berikut tiga tanda peringatan yang perlu diperhatikan dalam set data.
Nilai Fitur Tidak Ada
Jika set data Anda memiliki satu atau beberapa fitur yang tidak memiliki nilai untuk banyak contoh, hal tersebut dapat menjadi indikator bahwa karakteristik utama tertentu dari set data Anda kurang direpresentasikan.
Misalnya, tabel di bawah menunjukkan ringkasan statistik utama untuk subset fitur dalam set data Perumahan di California,
yang disimpan dalam berikan panda DataFrame
dan dihasilkan melalui DataFrame.describe
. Perhatikan bahwa semua fitur memiliki count
17000, yang menunjukkan bahwa tidak ada nilai yang hilang:
longitude | latitude | total_ruang | populasi | rumah tangga | median_penghasilan | media__house_value | |
---|---|---|---|---|---|---|---|
jumlah | 17000,0 | 17000,0 | 17000,0 | 17000,0 | 17000,0 | 17000,0 | 17000,0 |
rata-rata | -119,6 | 35,6 | 2643,7 | 1429,6 | 501,2 | 3,9 | 207,3 |
Std | 2.0 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
mnt | -124,3 | 32,5 | 2.0 | 3.0 | 1.0 | 0,5 | 15,0 |
25% | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50% | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3,5 | 180,4 |
75% | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4.8 | 265,0 |
maks. | -114,3 | 42,0 | 37937,0 | 35682,0 | 6.082,0 | 15,0 | 500,0 |
Anggaplah tiga fitur (population
, households
, dan median_income
) hanya memiliki jumlah 3000
—dengan kata lain, ada 14.000 nilai yang tidak ada untuk setiap fitur:
longitude | latitude | total_ruang | populasi | rumah tangga | median_penghasilan | media__house_value | |
---|---|---|---|---|---|---|---|
jumlah | 17000,0 | 17000,0 | 17000,0 | 3000,0 | 3000,0 | 3000,0 | 17000,0 |
rata-rata | -119,6 | 35,6 | 2643,7 | 1429,6 | 501,2 | 3,9 | 207,3 |
Std | 2.0 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
mnt | -124,3 | 32,5 | 2.0 | 3.0 | 1.0 | 0,5 | 15,0 |
25% | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50% | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3,5 | 180,4 |
75% | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4.8 | 265,0 |
maks. | -114,3 | 42,0 | 37937,0 | 35682,0 | 6.082,0 | 15,0 | 500,0 |
Sebanyak 14.000 nilai yang hilang ini akan jauh lebih sulit untuk menghubungkan pendapatan median rumah tangga dengan harga rumah median secara akurat. Sebelum melatih model pada data ini, akan lebih berhati-hati untuk menyelidiki penyebab nilai yang tidak ada ini untuk memastikan tidak ada bias laten yang menyebabkan hilangnya data populasi dan pendapatan.
Nilai Fitur yang Tidak Diinginkan
Saat menjelajahi data, Anda juga harus mencari contoh berisi nilai fitur yang tampil berbeda secara khusus atau tidak biasa. Nilai fitur yang tidak terduga ini dapat menunjukkan masalah yang terjadi selama pengumpulan data atau ketidakakuratan lainnya yang dapat menyebabkan bias.
Misalnya, lihat contoh kutipan berikut dari set data perumahan California:
longitude | latitude | total_ruang | populasi | rumah tangga | median_penghasilan | media__house_value | |
---|---|---|---|---|---|---|---|
1 | -121,7 | 38,0 | 7105,0 | 3523,0 | 1088,0 | 5,0 | 0,2 |
2 | -122,4 | 37,8 | 2479,0 | 1816,0 | 496,0 | 3.1 | 0,3 |
3 | -122,0 | 37,0 | 2813,0 | 1337,0 | 477,0 | 3,7 | 0,3 |
4 | -103,5 | 43,8 | 2212,0 | 803,0 | 144,0 | 5.3 | 0,2 |
5 | -117,1 | 32,8 | 2963,0 | 1162,0 | 556,0 | 3.6 | 0,2 |
6 | -118,0 | 33,7 | 3396,0 | 1542,0 | 472,0 | 7.4 | 0,4 |
Dapatkah Anda menentukan nilai fitur yang tidak terduga?
Skew Data
Segala macam kecurangan dalam data Anda, yang mana kelompok atau karakteristik tertentu mungkin kurang atau terlalu direpresentasikan relatif terhadap prevalensi dunia nyata, yang dapat menyebabkan bias pada model Anda.
Jika Anda telah menyelesaikan Latihan pemrograman validasi, Anda mungkin ingat saat menemukan kegagalan untuk mengacak set data perumahan California sebelum membaginya menjadi set validasi dan pelatihan akan menyebabkan perubahan data yang jelas. Gambar 1 memvisualisasikan subset data yang diambil dari set data lengkap yang secara eksklusif mewakili wilayah barat laut California.
Gambar 1. Peta negara bagian California yang dilapisi dengan data dari set data Perumahan California. Setiap titik mewakili blok perumahan, dengan warna mulai dari biru hingga merah sesuai dengan harga rumah median mulai dari rendah hingga tinggi.
Jika sampel yang tidak representatif ini digunakan untuk melatih model guna memprediksi harga perumahan California di seluruh negara bagian, kurangnya data perumahan dari bagian selatan California akan menjadi masalah. Bias geografis yang dienkode dalam model dapat berpengaruh negatif terhadap pembeli rumah di komunitas yang tidak diwakili.