Saat menyiapkan data untuk pelatihan dan evaluasi model, Anda harus selalu mengingat masalah keadilan dan mengaudit sumber potensial bias, sehingga Anda dapat secara proaktif mengurangi efeknya sebelum merilis model ke dalam lingkungan production.
Di mana bias berpotensi muncul? Berikut beberapa tanda peringatan yang perlu diperhatikan dalam set data Anda.
Nilai fitur tidak ada
Jika set data Anda memiliki satu atau beberapa fitur dengan nilai yang hilang untuk banyak contoh, hal tersebut bisa menjadi indikator bahwa karakteristik utama tertentu dari set data Anda kurang direpresentasikan.
Latihan: Periksa pemahaman Anda
Anda menemukan bahwa 1.500 dari 5.000 contoh di set pelatihan tidak memiliki nilai temperamen. Manakah dari opsi berikut yang merupakan potensi sumber bias yang harus Anda selidiki?
Nilai fitur yang tidak terduga
Saat menjelajahi data, Anda juga harus mencari contoh berisi nilai fitur yang mencolok, terutama yang tidak biasa atau tidak normal. Nilai fitur tidak terduga ini dapat mengindikasikan masalah yang terjadi saat pengumpulan data atau ketidakakuratan lain yang dapat menyebabkan bias.
Latihan: Periksa pemahaman Anda
Tinjau kumpulan contoh hipotetis berikut untuk melatih model kemampuan adopsi penyelamat.
ras | usia (tahun) | berat (lbs) | temperamen | shedding_level |
---|---|---|---|---|
pudel mainan | 2 | 12 | bersemangat | rendah |
golden retriever | 7 | 65 | tenang | tinggi |
labrador retriever | 35 | 73 | tenang | tinggi |
french bulldog | 0,5 | 11 | tenang | sedang |
jenis campuran yang tidak diketahui | 4 | 45 | mudah terangsang | tinggi |
Basset Hound | 9 | 48 | tenang | sedang |
ras | usia (tahun) | berat (lbs) | temperamen | shedding_level |
---|---|---|---|---|
pudel mainan | 2 | 12 | bersemangat | rendah |
golden retriever | 7 | 65 | tenang | tinggi |
labrador retriever | 35 | 73 | tenang | tinggi |
french bulldog | 0,5 | 11 | tenang | sedang |
jenis campuran yang tidak diketahui | 4 | 45 | mudah terangsang | tinggi |
Basset Hound | 9 | 48 | tenang | sedang |
tertua yang usianya diverifikasi oleh Guinness World Records adalah Bluey, Ternak Australia yang hidup hingga usia 29 tahun dan 5 bulan. Mengingat hal itu, sepertinya sangat tidak masuk akal bahwa labrador retriever tersebut sebenarnya berusia 35 tahun, dan kemungkinan besar usia anjingnya dihitung atau dicatat secara tidak akurat (mungkin anjingnya sebenarnya berusia 3,5 tahun). Error ini juga dapat menunjukkan masalah akurasi yang lebih luas dengan data usia dalam set data yang perlu diselidiki lebih lanjut.
Kecondongan data
Segala macam kecondongan dalam data Anda, yang mana kelompok atau karakteristik tertentu dapat kurang atau terlalu direpresentasikan relatif terhadap prevalensi dunia nyata, yang dapat memasukkan bias ke dalam model.
Saat mengaudit performa model, penting untuk tidak hanya melihat hasil secara agregat, tetapi juga mengelompokkan hasil menurut subgrup. Misalnya, dalam kasus model adopsi penyelamat, untuk memastikan keadilan, tidak cukup hanya melihat akurasi secara keseluruhan. Kita juga harus mengaudit performa berdasarkan subgrup untuk memastikan model tersebut berperforma sama baik untuk setiap jenis, kelompok usia, dan kelompok ukuran.
Di bagian selanjutnya dalam modul ini, di Mengevaluasi Bias, kita akan mempelajari lebih lanjut berbagai metode untuk mengevaluasi model menurut subgrup.