Keadilan: Mengidentifikasi Bias

Saat Anda menjelajahi data untuk menentukan cara terbaik dalam merepresentasikannya dalam model, penting juga untuk mempertimbangkan masalah keadilan dan mengaudit potensi sumber bias secara proaktif.

Di mana bias dapat terlihat? Berikut tiga tanda peringatan yang perlu diperhatikan dalam set data.

Nilai Fitur Tidak Ada

Jika set data Anda memiliki satu atau beberapa fitur yang tidak memiliki nilai untuk banyak contoh, hal tersebut dapat menjadi indikator bahwa karakteristik utama tertentu dari set data Anda kurang direpresentasikan.

Misalnya, tabel di bawah menunjukkan ringkasan statistik utama untuk subset fitur dalam set data Perumahan di California, yang disimpan dalam berikan panda DataFrame dan dihasilkan melalui DataFrame.describe. Perhatikan bahwa semua fitur memiliki count 17000, yang menunjukkan bahwa tidak ada nilai yang hilang:

longitude latitude total_ruang populasi rumah tangga median_penghasilan media__house_value
jumlah 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0
rata-rata -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
Std 2.0 2.1 2179,9 1147,9 384,5 1.9 116,0
mnt -124,3 32,5 2.0 3.0 1.0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4.8 265,0
maks. -114,3 42,0 37937,0 35682,0 6.082,0 15,0 500,0

Anggaplah tiga fitur (population, households, dan median_income) hanya memiliki jumlah 3000—dengan kata lain, ada 14.000 nilai yang tidak ada untuk setiap fitur:

longitude latitude total_ruang populasi rumah tangga median_penghasilan media__house_value
jumlah 17000,0 17000,0 17000,0 3000,0 3000,0 3000,0 17000,0
rata-rata -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
Std 2.0 2.1 2179,9 1147,9 384,5 1.9 116,0
mnt -124,3 32,5 2.0 3.0 1.0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4.8 265,0
maks. -114,3 42,0 37937,0 35682,0 6.082,0 15,0 500,0

Sebanyak 14.000 nilai yang hilang ini akan jauh lebih sulit untuk menghubungkan pendapatan median rumah tangga dengan harga rumah median secara akurat. Sebelum melatih model pada data ini, akan lebih berhati-hati untuk menyelidiki penyebab nilai yang tidak ada ini untuk memastikan tidak ada bias laten yang menyebabkan hilangnya data populasi dan pendapatan.

Nilai Fitur yang Tidak Diinginkan

Saat menjelajahi data, Anda juga harus mencari contoh berisi nilai fitur yang tampil berbeda secara khusus atau tidak biasa. Nilai fitur yang tidak terduga ini dapat menunjukkan masalah yang terjadi selama pengumpulan data atau ketidakakuratan lainnya yang dapat menyebabkan bias.

Misalnya, lihat contoh kutipan berikut dari set data perumahan California:

longitude latitude total_ruang populasi rumah tangga median_penghasilan media__house_value
1 -121,7 38,0 7105,0 3523,0 1088,0 5,0 0,2
2 -122,4 37,8 2479,0 1816,0 496,0 3.1 0,3
3 -122,0 37,0 2813,0 1337,0 477,0 3,7 0,3
4 -103,5 43,8 2212,0 803,0 144,0 5.3 0,2
5 -117,1 32,8 2963,0 1162,0 556,0 3.6 0,2
6 -118,0 33,7 3396,0 1542,0 472,0 7.4 0,4

Dapatkah Anda menentukan nilai fitur yang tidak terduga?

Skew Data

Segala macam kecurangan dalam data Anda, yang mana kelompok atau karakteristik tertentu mungkin kurang atau terlalu direpresentasikan relatif terhadap prevalensi dunia nyata, yang dapat menyebabkan bias pada model Anda.

Jika Anda telah menyelesaikan Latihan pemrograman validasi, Anda mungkin ingat saat menemukan kegagalan untuk mengacak set data perumahan California sebelum membaginya menjadi set validasi dan pelatihan akan menyebabkan perubahan data yang jelas. Gambar 1 memvisualisasikan subset data yang diambil dari set data lengkap yang secara eksklusif mewakili wilayah barat laut California.

Peta negara bagian California yang dilapisi dengan data dari set data Perumahan California.
          Setiap titik mewakili blok perumahan. Titik-titik dikelompokkan di barat laut California, tanpa titik di California selatan, yang menggambarkan kemiringan geografis data

Gambar 1. Peta negara bagian California yang dilapisi dengan data dari set data Perumahan California. Setiap titik mewakili blok perumahan, dengan warna mulai dari biru hingga merah sesuai dengan harga rumah median mulai dari rendah hingga tinggi.

Jika sampel yang tidak representatif ini digunakan untuk melatih model guna memprediksi harga perumahan California di seluruh negara bagian, kurangnya data perumahan dari bagian selatan California akan menjadi masalah. Bias geografis yang dienkode dalam model dapat berpengaruh negatif terhadap pembeli rumah di komunitas yang tidak diwakili.