Giả sử bạn có một mô hình hồi quy logistic để phát hiện email rác dự đoán một giá trị trong khoảng từ 0 đến 1, thể hiện xác suất mà một email là thư rác. Dự đoán là 0,50 cho biết khả năng 50% email đó là thư rác, dự đoán bằng 0,75 cho thấy khả năng 75% email đó là thư rác, và cứ tiếp tục như vậy.
Bạn muốn triển khai mô hình này trong ứng dụng email để lọc thư rác vào
một thư mục thư riêng. Nhưng để làm như vậy, bạn cần chuyển đổi dữ liệu thô của mô hình
đầu ra dạng số (ví dụ: 0.75
) thành một trong hai danh mục: "thư rác" hoặc "không
thư rác".
Để thực hiện lượt chuyển đổi này, hãy chọn một xác suất ngưỡng, được gọi là
ngưỡng phân loại.
Sau đó, chỉ định các ví dụ có xác suất trên giá trị ngưỡng
vào nhóm tích cực,
lớp mà bạn đang kiểm tra (tại đây, spam
). Ví dụ với chỉ số
xác suất được gán cho lớp âm,
lớp thay thế (ở đây, not spam
).
Nhấp vào đây để biết thêm thông tin chi tiết về ngưỡng phân loại
Có thể bạn đang thắc mắc: điều gì sẽ xảy ra nếu điểm số dự đoán bằng ngưỡng phân loại (ví dụ: 0, 5 điểm trong đó ngưỡng phân loại cũng là 0,5)? Xử lý đối với trường hợp này tuỳ thuộc vào cách triển khai cụ thể được chọn để phân loại mô hình. Ví dụ: Keras thư viện dự đoán lớp âm nếu điểm số và ngưỡng đều tương đương, nhưng các công cụ/khung khác có thể xử lý trường hợp này theo cách khác.
Ví dụ: giả sử mô hình tính điểm một email là 0, 99, dự đoán rằng email đó có 99% khả năng là thư rác và một email khác 0,51, dự đoán rằng email này có 51% khả năng là thư rác. Nếu bạn đặt đạt ngưỡng phân loại là 0, 5 thì mô hình sẽ phân loại cả hai email là: thư rác. Nếu bạn đặt ngưỡng là 0,95 thì chỉ email được chấm điểm 0,99 sẽ bị phân loại là thư rác.
Mặc dù 0, 5 có vẻ như là một ngưỡng trực quan nhưng không phải là ý tưởng hay nếu chi phí của một loại phân loại sai cao hơn loại khác hoặc nếu các lớp học không cân bằng. Nếu chỉ có 0, 01% email là thư rác hoặc trường hợp email sai email hợp lệ còn tệ hơn việc để thư rác vào hộp thư đến gắn nhãn bất kỳ nội dung nào mà mô hình cho rằng có ít nhất 50% khả năng là nội dung rác vì nội dung rác tạo ra kết quả không mong muốn.
Ma trận nhầm lẫn
Điểm xác suất không đúng thực tế, hoặc thông tin thực tế. Có thể có 4 kết quả cho mỗi đầu ra của một thuật toán phân loại nhị phân. Đối với ví dụ về thuật toán phân loại nội dung rác, nếu bạn trình bày thông tin thực tế dưới dạng các cột và dự đoán của mô hình dưới dạng hàng, bảng sau đây được gọi là ma trận nhầm lẫn là kết quả:
Thực tế tích cực | Thực tế âm | |
---|---|---|
Dự đoán dương | Thực sự tích cực (TP): Nội dung rác email được phân loại chính xác là email rác. Đây là các tin nhắn rác tự động được gửi vào thư mục thư rác. | Sai dương tính (FP): Email không phải thư rác bị phân loại sai là thư rác. Đây là những email hợp lệ sẽ nằm trong thư mục thư rác. |
Dự đoán âm | Sai phủ định (FN): Email spam bị phân loại sai là không phải spam. Đây là nội dung làm phiền email không phải là bị bộ lọc thư rác chặn và xâm nhập vào hộp thư đến. | Thực sự tiêu cực (TN): A email không phải spam được phân loại chính xác là không phải spam. Đây là những email hợp lệ được gửi vào hộp thư đến. |
Lưu ý rằng giá trị tổng số trong mỗi hàng cung cấp tất cả các giá trị dương được dự đoán (TP + FP) và tất cả âm tính dự đoán (FN + TN), bất kể hợp lệ là gì. Tổng số tiền trong mỗi trong khi đó, cột này sẽ cung cấp tất cả các giá trị dương thực (TP + FN) và tất cả các giá trị âm thực (FP + TN) bất kể việc phân loại mô hình là gì.
Khi tổng số dương thực tế không gần với tổng số dương tính thực tế âm, tập dữ liệu là bất cân bằng. Một thực thể của tập dữ liệu không cân bằng có thể là một tập hợp hàng nghìn bức ảnh về các đám mây, trong đó loại đám mây hiếm mà bạn quan tâm, chẳng hạn như đám mây dạng mây, chỉ xuất hiện vài lần.
Ảnh hưởng của ngưỡng đối với kết quả dương tính thật và âm tính giả
Các ngưỡng khác nhau thường dẫn đến số lượng giá trị đúng và sai khác nhau dương tính và âm tính giả. Video sau đây sẽ giải thích lý do trường hợp.
Hãy thử tự thay đổi ngưỡng.
Tiện ích này bao gồm ba tập dữ liệu đồ chơi:
- Tách riêng, trong đó, ví dụ khẳng định và ví dụ phủ định thường được đều khác biệt rõ ràng, với hầu hết các ví dụ tích cực có điểm cao hơn ví dụ phủ định.
- Không được phân tách, trong đó nhiều ví dụ khẳng định có điểm thấp hơn ví dụ phủ định và nhiều ví dụ phủ định có điểm cao hơn ví dụ tích cực.
- Không cân bằng, chỉ chứa một vài ví dụ về lớp khẳng định.