Phân loại: Độ lệch dự đoán
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Như đã đề cập trong
Hồi quy tuyến tính
mô-đun, tính toán
thiên vị dự đoán
là một tuỳ chọn kiểm tra nhanh có thể gắn cờ các vấn đề với mô hình hoặc dữ liệu huấn luyện
từ sớm.
Độ lệch dự đoán là độ chênh lệch giữa giá trị trung bình của một mô hình
cụm từ gợi ý
và giá trị trung bình của
nhãn ground-thực-thật trong
. Một mô hình được huấn luyện trên một tập dữ liệu
trong đó 5% email là thư rác nên dự đoán trung bình rằng 5%
email mà hệ thống phân loại là thư rác. Nói cách khác, giá trị trung bình của các nhãn trong
là 0, 05 và giá trị trung bình của các dự đoán trong mô hình
cũng là 0,05. Nếu trường hợp này xảy ra, mô hình có độ lệch dự đoán bằng 0. Trong tổng số
tất nhiên mô hình đó vẫn có thể gặp phải các vấn đề khác.
Thay vào đó, nếu mô hình này dự đoán 50% thời gian email là thư rác, thì
đã xảy ra lỗi với tập dữ liệu huấn luyện, tập dữ liệu mới mà mô hình là
được áp dụng hoặc với chính mô hình. Bất kỳ hạng nào
sự khác biệt đáng kể giữa hai giá trị trung bình cho thấy mô hình này
một số thiên kiến dự đoán.
Nguyên nhân có thể là do:
- Độ lệch hoặc nhiễu trong dữ liệu, bao gồm cả độ sai lệch lấy mẫu cho tập huấn luyện
- Quy chuẩn hoá quá mạnh, tức là mô hình bị đơn giản hoá quá mức và bị mất
một số độ phức tạp cần thiết
- Lỗi trong quy trình huấn luyện mô hình
- Tập hợp tính năng được cung cấp cho mô hình không đủ cho nhiệm vụ
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2024-08-13 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2024-08-13 UTC."],[[["\u003cp\u003ePrediction bias, calculated as the difference between the average prediction and the average ground truth, is a quick check for model or data issues.\u003c/p\u003e\n"],["\u003cp\u003eA model with zero prediction bias ideally predicts the same average outcome as observed in the ground truth data, such as a spam detection model predicting the same percentage of spam emails as actually present in the dataset.\u003c/p\u003e\n"],["\u003cp\u003eSignificant prediction bias can indicate problems in the training data, the model itself, or the new data being applied to the model.\u003c/p\u003e\n"],["\u003cp\u003eCommon causes of prediction bias include biased data, excessive regularization, bugs in the training process, and insufficient features provided to the model.\u003c/p\u003e\n"]]],[],null,["# Classification: Prediction bias\n\nAs mentioned in the\n[Linear regression](/machine-learning/crash-course/linear-regression)\nmodule, calculating\n[**prediction bias**](/machine-learning/glossary#prediction_bias)\nis a quick check that can flag issues with the model or training data\nearly on.\n\nPrediction bias is the difference between the mean of a model's\n[**predictions**](/machine-learning/glossary#prediction)\nand the mean of\n[**ground-truth**](/machine-learning/glossary#ground-truth) labels in the\ndata. A model trained on a dataset\nwhere 5% of the emails are spam should predict, on average, that 5% of the\nemails it classifies are spam. In other words, the mean of the labels in the\nground-truth dataset is 0.05, and the mean of the model's predictions should\nalso be 0.05. If this is the case, the model has zero prediction bias. Of\ncourse, the model might still have other problems.\n\nIf the model instead predicts 50% of the time that an email is spam, then\nsomething is wrong with the training dataset, the new dataset the model is\napplied to, or with the model itself. Any\nsignificant difference between the two means suggests that the model has\nsome prediction bias.\n\nPrediction bias can be caused by:\n\n- Biases or noise in the data, including biased sampling for the training set\n- Too-strong regularization, meaning that the model was oversimplified and lost some necessary complexity\n- Bugs in the model training pipeline\n- The set of features provided to the model being insufficient for the task\n\n| **Key terms:**\n|\n| - [Ground truth](/machine-learning/glossary#ground-truth)\n| - [Prediction](/machine-learning/glossary#prediction)\n- [Prediction bias](/machine-learning/glossary#prediction_bias) \n[Help Center](https://support.google.com/machinelearningeducation)"]]