Klasifikasi: Bias prediksi
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Sebagaimana disebutkan dalam
Regresi linear
modul, menghitung
bias prediksi
adalah pemeriksaan cepat yang dapat menandai masalah terkait data pelatihan atau model
sejak dini.
Bias prediksi adalah perbedaan antara nilai rata-rata
prediksi
dan rata-rata dari
label kebenaran dasar dalam
layanan otomatis dan data skalabel. Model yang dilatih dengan set data
di mana 5% dari email adalah spam.
Rata-rata, 5% dari email
email yang diklasifikasikan sebagai spam. Dengan kata lain, rata-rata label dalam
dasar-dasar kebenaran data adalah 0,05, dan rata-rata prediksi model harus
juga menjadi 0,05. Jika demikian, model tersebut memiliki bias prediksi nol. Dari
model mungkin masih memiliki masalah lain.
Jika model memprediksi 50% frekuensi email adalah spam, maka
ada yang salah dengan set data pelatihan, set data baru yang digunakan model
diterapkan, atau dengan model itu sendiri. Apa saja
perbedaan yang signifikan di antara kedua cara tersebut
menunjukkan bahwa model memiliki
beberapa bias prediksi.
Bias prediksi dapat disebabkan oleh:
- Bias atau derau dalam data, termasuk pengambilan sampel bias untuk set pelatihan
- Regularisasi yang terlalu kuat, yang berarti bahwa model terlalu disederhanakan dan hilang
beberapa kompleksitas yang diperlukan
- Bug dalam pipeline pelatihan model
- Serangkaian fitur yang disediakan pada model tidak memadai untuk tugas tersebut
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2024-08-13 UTC.
[null,null,["Terakhir diperbarui pada 2024-08-13 UTC."],[[["\u003cp\u003ePrediction bias, calculated as the difference between the average prediction and the average ground truth, is a quick check for model or data issues.\u003c/p\u003e\n"],["\u003cp\u003eA model with zero prediction bias ideally predicts the same average outcome as observed in the ground truth data, such as a spam detection model predicting the same percentage of spam emails as actually present in the dataset.\u003c/p\u003e\n"],["\u003cp\u003eSignificant prediction bias can indicate problems in the training data, the model itself, or the new data being applied to the model.\u003c/p\u003e\n"],["\u003cp\u003eCommon causes of prediction bias include biased data, excessive regularization, bugs in the training process, and insufficient features provided to the model.\u003c/p\u003e\n"]]],[],null,["# Classification: Prediction bias\n\nAs mentioned in the\n[Linear regression](/machine-learning/crash-course/linear-regression)\nmodule, calculating\n[**prediction bias**](/machine-learning/glossary#prediction_bias)\nis a quick check that can flag issues with the model or training data\nearly on.\n\nPrediction bias is the difference between the mean of a model's\n[**predictions**](/machine-learning/glossary#prediction)\nand the mean of\n[**ground-truth**](/machine-learning/glossary#ground-truth) labels in the\ndata. A model trained on a dataset\nwhere 5% of the emails are spam should predict, on average, that 5% of the\nemails it classifies are spam. In other words, the mean of the labels in the\nground-truth dataset is 0.05, and the mean of the model's predictions should\nalso be 0.05. If this is the case, the model has zero prediction bias. Of\ncourse, the model might still have other problems.\n\nIf the model instead predicts 50% of the time that an email is spam, then\nsomething is wrong with the training dataset, the new dataset the model is\napplied to, or with the model itself. Any\nsignificant difference between the two means suggests that the model has\nsome prediction bias.\n\nPrediction bias can be caused by:\n\n- Biases or noise in the data, including biased sampling for the training set\n- Too-strong regularization, meaning that the model was oversimplified and lost some necessary complexity\n- Bugs in the model training pipeline\n- The set of features provided to the model being insufficient for the task\n\n| **Key terms:**\n|\n| - [Ground truth](/machine-learning/glossary#ground-truth)\n| - [Prediction](/machine-learning/glossary#prediction)\n- [Prediction bias](/machine-learning/glossary#prediction_bias) \n[Help Center](https://support.google.com/machinelearningeducation)"]]