Sebagaimana disebutkan dalam Regresi linear modul, menghitung bias prediksi adalah pemeriksaan cepat yang dapat menandai masalah terkait data pelatihan atau model sejak dini.
Bias prediksi adalah perbedaan antara nilai rata-rata prediksi dan rata-rata dari label kebenaran dasar dalam layanan otomatis dan data skalabel. Model yang dilatih dengan set data di mana 5% dari email adalah spam. Rata-rata, 5% dari email email yang diklasifikasikan sebagai spam. Dengan kata lain, rata-rata label dalam dasar-dasar kebenaran data adalah 0,05, dan rata-rata prediksi model harus juga menjadi 0,05. Jika demikian, model tersebut memiliki bias prediksi nol. Dari model mungkin masih memiliki masalah lain.
Jika model memprediksi 50% frekuensi email adalah spam, maka ada yang salah dengan set data pelatihan, set data baru yang digunakan model diterapkan, atau dengan model itu sendiri. Apa saja perbedaan yang signifikan di antara kedua cara tersebut menunjukkan bahwa model memiliki beberapa bias prediksi.
Bias prediksi dapat disebabkan oleh:
- Bias atau derau dalam data, termasuk pengambilan sampel bias untuk set pelatihan
- Regularisasi yang terlalu kuat, yang berarti bahwa model terlalu disederhanakan dan hilang beberapa kompleksitas yang diperlukan
- Bug dalam pipeline pelatihan model
- Serangkaian fitur yang disediakan pada model tidak memadai untuk tugas tersebut