Keadilan: Mengidentifikasi bias

Saat menyiapkan data untuk pelatihan dan evaluasi model, Anda harus selalu mengingat masalah keadilan dan mengaudit sumber potensial bias, sehingga Anda dapat secara proaktif mengurangi efeknya sebelum merilis model ke dalam lingkungan production.

Di mana bias berpotensi muncul? Berikut beberapa tanda peringatan yang perlu diperhatikan dalam set data Anda.

Nilai fitur tidak ada

Jika set data Anda memiliki satu atau beberapa fitur dengan nilai yang hilang untuk banyak contoh, hal tersebut bisa menjadi indikator bahwa karakteristik utama tertentu dari set data Anda kurang direpresentasikan.

Latihan: Periksa pemahaman Anda

Anda sedang melatih model untuk memprediksi kemampuan adopsi penyelamat berdasarkan berbagai fitur, termasuk ras, usia, berat, temperamen, dan jumlah bulu yang rontok setiap hari. Sasaran Anda adalah memastikan model berperforma sama baiknya pada semua jenis, terlepas dari karakteristik fisik atau perilakunya

Anda menemukan bahwa 1.500 dari 5.000 contoh di set pelatihan tidak memiliki nilai temperamen. Manakah dari opsi berikut yang merupakan potensi sumber bias yang harus Anda selidiki?

Data temperamen tidak ada dalam set data secara acak.
Data temperamen lebih mungkin hilang untuk jenis tertentu.
Data temperamen tidak ada untuk semua yang diselamatkan dari kota besar.
Data temperamen lebih cenderung tidak ada untuk yang berusia di bawah 12 bulan

Nilai fitur yang tidak terduga

Saat menjelajahi data, Anda juga harus mencari contoh berisi nilai fitur yang mencolok, terutama yang tidak biasa atau tidak normal. Nilai fitur tidak terduga ini dapat mengindikasikan masalah yang terjadi saat pengumpulan data atau ketidakakuratan lain yang dapat menyebabkan bias.

Latihan: Periksa pemahaman Anda

Tinjau kumpulan contoh hipotetis berikut untuk melatih model kemampuan adopsi penyelamat.

ras usia (tahun) berat (lbs) temperamen shedding_level
pudel mainan 2 12 bersemangat rendah
golden retriever 7 65 tenang tinggi
labrador retriever 35 73 tenang tinggi
french bulldog 0,5 11 tenang sedang
jenis campuran yang tidak diketahui 4 45 mudah terangsang tinggi
Basset Hound 9 48 tenang sedang
Dapatkah Anda mengidentifikasi masalah pada data fitur?
Klik di sini untuk melihat jawabannya

Kecondongan data

Segala macam kecondongan dalam data Anda, yang mana kelompok atau karakteristik tertentu dapat kurang atau terlalu direpresentasikan relatif terhadap prevalensi dunia nyata, yang dapat memasukkan bias ke dalam model.

Saat mengaudit performa model, penting untuk tidak hanya melihat hasil secara agregat, tetapi juga mengelompokkan hasil menurut subgrup. Misalnya, dalam kasus model adopsi penyelamat, untuk memastikan keadilan, tidak cukup hanya melihat akurasi secara keseluruhan. Kita juga harus mengaudit performa berdasarkan subgrup untuk memastikan model tersebut berperforma sama baik untuk setiap jenis, kelompok usia, dan kelompok ukuran.

Di bagian selanjutnya dalam modul ini, di Mengevaluasi Bias, kita akan mempelajari lebih lanjut berbagai metode untuk mengevaluasi model menurut subgrup.