Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Keadilan: Mengidentifikasi bias

Saat menyiapkan data untuk pelatihan dan evaluasi model, Anda harus selalu mengingat masalah keadilan dan mengaudit sumber potensial bias, sehingga Anda dapat secara proaktif mengurangi efeknya sebelum merilis model ke dalam lingkungan production.

Di mana bias berpotensi muncul? Berikut beberapa tanda peringatan yang perlu diperhatikan dalam set data Anda.

Nilai fitur tidak ada

Jika set data Anda memiliki satu atau beberapa fitur dengan nilai yang hilang untuk banyak contoh, hal tersebut bisa menjadi indikator bahwa karakteristik utama tertentu dari set data Anda kurang direpresentasikan.

Latihan: Periksa pemahaman Anda

Anda sedang melatih model untuk memprediksi kemampuan adopsi penyelamat berdasarkan berbagai fitur, termasuk ras, usia, berat, temperamen, dan jumlah bulu yang rontok setiap hari. Sasaran Anda adalah memastikan model berperforma sama baiknya pada semua jenis, terlepas dari karakteristik fisik atau perilakunya

Anda menemukan bahwa 1.500 dari 5.000 contoh di set pelatihan tidak memiliki nilai temperamen. Manakah dari opsi berikut yang merupakan potensi sumber bias yang harus Anda selidiki?

Data temperamen lebih mungkin hilang untuk jenis tertentu.

Jika ketersediaan data temperamen berkorelasi dengan jenis, hal ini dapat menyebabkan prediksi adopsi yang kurang akurat untuk jenis tertentu.

Data temperamen lebih cenderung tidak ada untuk yang berusia di bawah 12 bulan

Jika ketersediaan data temperamen berkorelasi dengan usia, hal ini dapat mengakibatkan prediksi adopsi yang kurang akurat untuk anak dibandingkan dewasa.

Data temperamen tidak ada untuk semua yang diselamatkan dari kota besar.

Sekilas, hal ini mungkin tidak tampak sebagai potensi sumber bias, karena data yang hilang akan memengaruhi semua dari kota besar secara setara, terlepas dari ras, usia, berat, dll. Namun, kita masih perlu mempertimbangkan bahwa lokasi asal mungkin secara efektif berfungsi sebagai proxy untuk karakteristik fisik ini. Misalnya, jika dari kota besar jauh lebih mungkin berukuran lebih kecil daripada dari area pedesaan, hal itu dapat menyebabkan prediksi adopsi yang kurang akurat untuk dengan berat lebih rendah atau ras kecil tertentu.

Data temperamen tidak ada dalam set data secara acak.

Jika data temperamen benar-benar hilang secara acak, maka hal itu tidak akan menjadi sumber bias yang potensial. Namun, ada kemungkinan data temperamen hilang secara acak, tetapi penyelidikan lebih lanjut mungkin mengungkapkan penjelasan atas perbedaan tersebut. Jadi, penting untuk melakukan peninjauan menyeluruh guna mengesampingkan kemungkinan lain, alih-alih mengasumsikan bahwa kesenjangan data bersifat acak.

Nilai fitur yang tidak terduga

Saat menjelajahi data, Anda juga harus mencari contoh berisi nilai fitur yang mencolok, terutama yang tidak biasa atau tidak normal. Nilai fitur tidak terduga ini dapat mengindikasikan masalah yang terjadi saat pengumpulan data atau ketidakakuratan lain yang dapat menyebabkan bias.

Latihan: Periksa pemahaman Anda

Tinjau kumpulan contoh hipotetis berikut untuk melatih model kemampuan adopsi penyelamat.

ras	usia (tahun)	berat (lbs)	temperamen	shedding_level
pudel mainan	2	12	bersemangat	rendah
golden retriever	7	65	tenang	tinggi
labrador retriever	35	73	tenang	tinggi
french bulldog	0,5	11	tenang	sedang
jenis campuran yang tidak diketahui	4	45	mudah terangsang	tinggi
Basset Hound	9	48	tenang	sedang

Dapatkah Anda mengidentifikasi masalah pada data fitur?

Klik di sini untuk melihat jawabannya

ras	usia (tahun)	berat (lbs)	temperamen	shedding_level
pudel mainan	2	12	bersemangat	rendah
golden retriever	7	65	tenang	tinggi
labrador retriever	35	73	tenang	tinggi
french bulldog	0,5	11	tenang	sedang
jenis campuran yang tidak diketahui	4	45	mudah terangsang	tinggi
Basset Hound	9	48	tenang	sedang

tertua yang usianya diverifikasi oleh Guinness World Records adalah Bluey, Ternak Australia yang hidup hingga usia 29 tahun dan 5 bulan. Mengingat hal itu, sepertinya sangat tidak masuk akal bahwa labrador retriever tersebut sebenarnya berusia 35 tahun, dan kemungkinan besar usia anjingnya dihitung atau dicatat secara tidak akurat (mungkin anjingnya sebenarnya berusia 3,5 tahun). Error ini juga dapat menunjukkan masalah akurasi yang lebih luas dengan data usia dalam set data yang perlu diselidiki lebih lanjut.

Kecondongan data

Segala macam kecondongan dalam data Anda, yang mana kelompok atau karakteristik tertentu dapat kurang atau terlalu direpresentasikan relatif terhadap prevalensi dunia nyata, yang dapat memasukkan bias ke dalam model.

Saat mengaudit performa model, penting untuk tidak hanya melihat hasil secara agregat, tetapi juga mengelompokkan hasil menurut subgrup. Misalnya, dalam kasus model adopsi penyelamat, untuk memastikan keadilan, tidak cukup hanya melihat akurasi secara keseluruhan. Kita juga harus mengaudit performa berdasarkan subgrup untuk memastikan model tersebut berperforma sama baik untuk setiap jenis, kelompok usia, dan kelompok ukuran.

Di bagian selanjutnya dalam modul ini, di Mengevaluasi Bias, kita akan mempelajari lebih lanjut berbagai metode untuk mengevaluasi model menurut subgrup.

Sebelumnya

Jenis bias (5 mnt)

Berikutnya

Memitigasi bias (5 mnt)

Keadilan: Mengidentifikasi bias Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Nilai fitur tidak ada

Latihan: Periksa pemahaman Anda

Nilai fitur yang tidak terduga

Latihan: Periksa pemahaman Anda

Kecondongan data

Keadilan: Mengidentifikasi bias