Phân loại: Độ lệch dự đoán

Như đã đề cập trong Hồi quy tuyến tính mô-đun, tính toán thiên vị dự đoán là một tuỳ chọn kiểm tra nhanh có thể gắn cờ các vấn đề với mô hình hoặc dữ liệu huấn luyện từ sớm.

Độ lệch dự đoán là độ chênh lệch giữa giá trị trung bình của một mô hình cụm từ gợi ý và giá trị trung bình của nhãn ground-thực-thật trong . Một mô hình được huấn luyện trên một tập dữ liệu trong đó 5% email là thư rác nên dự đoán trung bình rằng 5% email mà hệ thống phân loại là thư rác. Nói cách khác, giá trị trung bình của các nhãn trong là 0, 05 và giá trị trung bình của các dự đoán trong mô hình cũng là 0,05. Nếu trường hợp này xảy ra, mô hình có độ lệch dự đoán bằng 0. Trong tổng số tất nhiên mô hình đó vẫn có thể gặp phải các vấn đề khác.

Thay vào đó, nếu mô hình này dự đoán 50% thời gian email là thư rác, thì đã xảy ra lỗi với tập dữ liệu huấn luyện, tập dữ liệu mới mà mô hình là được áp dụng hoặc với chính mô hình. Bất kỳ hạng nào sự khác biệt đáng kể giữa hai giá trị trung bình cho thấy mô hình này một số thiên kiến dự đoán.

Nguyên nhân có thể là do:

  • Độ lệch hoặc nhiễu trong dữ liệu, bao gồm cả độ sai lệch lấy mẫu cho tập huấn luyện
  • Quy chuẩn hoá quá mạnh, tức là mô hình bị đơn giản hoá quá mức và bị mất một số độ phức tạp cần thiết
  • Lỗi trong quy trình huấn luyện mô hình
  • Tập hợp tính năng được cung cấp cho mô hình không đủ cho nhiệm vụ