Ngưỡng và ma trận nhầm lẫn

Giả sử bạn có một mô hình hồi quy logistic để phát hiện email rác dự đoán một giá trị trong khoảng từ 0 đến 1, thể hiện xác suất mà một email là thư rác. Dự đoán là 0,50 cho biết khả năng 50% email đó là thư rác, dự đoán bằng 0,75 cho thấy khả năng 75% email đó là thư rác, và cứ tiếp tục như vậy.

Bạn muốn triển khai mô hình này trong ứng dụng email để lọc thư rác vào một thư mục thư riêng. Nhưng để làm như vậy, bạn cần chuyển đổi dữ liệu thô của mô hình đầu ra dạng số (ví dụ: 0.75) thành một trong hai danh mục: "thư rác" hoặc "không thư rác".

Để thực hiện lượt chuyển đổi này, hãy chọn một xác suất ngưỡng, được gọi là ngưỡng phân loại. Sau đó, chỉ định các ví dụ có xác suất trên giá trị ngưỡng vào nhóm tích cực, lớp mà bạn đang kiểm tra (tại đây, spam). Ví dụ với chỉ số xác suất được gán cho lớp âm, lớp thay thế (ở đây, not spam).

Nhấp vào đây để biết thêm thông tin chi tiết về ngưỡng phân loại

Có thể bạn đang thắc mắc: điều gì sẽ xảy ra nếu điểm số dự đoán bằng ngưỡng phân loại (ví dụ: 0, 5 điểm trong đó ngưỡng phân loại cũng là 0,5)? Xử lý đối với trường hợp này tuỳ thuộc vào cách triển khai cụ thể được chọn để phân loại mô hình. Ví dụ: Keras thư viện dự đoán lớp âm nếu điểm số và ngưỡng đều tương đương, nhưng các công cụ/khung khác có thể xử lý trường hợp này theo cách khác.

Ví dụ: giả sử mô hình tính điểm một email là 0, 99, dự đoán rằng email đó có 99% khả năng là thư rác và một email khác 0,51, dự đoán rằng email này có 51% khả năng là thư rác. Nếu bạn đặt đạt ngưỡng phân loại là 0, 5 thì mô hình sẽ phân loại cả hai email là: thư rác. Nếu bạn đặt ngưỡng là 0,95 thì chỉ email được chấm điểm 0,99 sẽ bị phân loại là thư rác.

Mặc dù 0, 5 có vẻ như là một ngưỡng trực quan nhưng không phải là ý tưởng hay nếu chi phí của một loại phân loại sai cao hơn loại khác hoặc nếu các lớp học không cân bằng. Nếu chỉ có 0, 01% email là thư rác hoặc trường hợp email sai email hợp lệ còn tệ hơn việc để thư rác vào hộp thư đến gắn nhãn bất kỳ nội dung nào mà mô hình cho rằng có ít nhất 50% khả năng là nội dung rác vì nội dung rác tạo ra kết quả không mong muốn.

Ma trận nhầm lẫn

Điểm xác suất không đúng thực tế, hoặc thông tin thực tế. Có thể có 4 kết quả cho mỗi đầu ra của một thuật toán phân loại nhị phân. Đối với ví dụ về thuật toán phân loại nội dung rác, nếu bạn trình bày thông tin thực tế dưới dạng các cột và dự đoán của mô hình dưới dạng hàng, bảng sau đây được gọi là ma trận nhầm lẫn là kết quả:

Thực tế tích cực Thực tế âm
Dự đoán dương Thực sự tích cực (TP): Nội dung rác email được phân loại chính xác là email rác. Đây là các tin nhắn rác tự động được gửi vào thư mục thư rác. Sai dương tính (FP): Email không phải thư rác bị phân loại sai là thư rác. Đây là những email hợp lệ sẽ nằm trong thư mục thư rác.
Dự đoán âm Sai phủ định (FN): Email spam bị phân loại sai là không phải spam. Đây là nội dung làm phiền email không phải là bị bộ lọc thư rác chặn và xâm nhập vào hộp thư đến. Thực sự tiêu cực (TN): A email không phải spam được phân loại chính xác là không phải spam. Đây là những email hợp lệ được gửi vào hộp thư đến.

Lưu ý rằng giá trị tổng số trong mỗi hàng cung cấp tất cả các giá trị dương được dự đoán (TP + FP) và tất cả âm tính dự đoán (FN + TN), bất kể hợp lệ là gì. Tổng số tiền trong mỗi trong khi đó, cột này sẽ cung cấp tất cả các giá trị dương thực (TP + FN) và tất cả các giá trị âm thực (FP + TN) bất kể việc phân loại mô hình là gì.

Khi tổng số dương thực tế không gần với tổng số dương tính thực tế âm, tập dữ liệu là bất cân bằng. Một thực thể của tập dữ liệu không cân bằng có thể là một tập hợp hàng nghìn bức ảnh về các đám mây, trong đó loại đám mây hiếm mà bạn quan tâm, chẳng hạn như đám mây dạng mây, chỉ xuất hiện vài lần.

Ảnh hưởng của ngưỡng đối với kết quả dương tính thật và âm tính giả

Các ngưỡng khác nhau thường dẫn đến số lượng giá trị đúng và sai khác nhau dương tính và âm tính giả. Video sau đây sẽ giải thích lý do trường hợp.

Hãy thử tự thay đổi ngưỡng.

Tiện ích này bao gồm ba tập dữ liệu đồ chơi:

  • Tách riêng, trong đó, ví dụ khẳng định và ví dụ phủ định thường được đều khác biệt rõ ràng, với hầu hết các ví dụ tích cực có điểm cao hơn ví dụ phủ định.
  • Không được phân tách, trong đó nhiều ví dụ khẳng định có điểm thấp hơn ví dụ phủ định và nhiều ví dụ phủ định có điểm cao hơn ví dụ tích cực.
  • Không cân bằng, chỉ chứa một vài ví dụ về lớp khẳng định.

Kiểm tra kiến thức

1. Hãy tưởng tượng một mô hình phân loại phần mềm độc hại hoặc lừa đảo mà trong đó các trang web lừa đảo và chứa phần mềm độc hại đều thuộc loại được gắn nhãn 1 (đúng) và các trang web vô hại nằm trong lớp được gắn nhãn 0 (sai). Mô hình này phân loại nhầm một trang web hợp pháp là phần mềm độc hại. Mục này gọi là gì?
Dương tính giả
Ví dụ phủ định (trang web hợp pháp) đã bị sử dụng sai được phân loại là ví dụ khẳng định (trang web chứa phần mềm độc hại).
Dương tính thực sự
Trang web chứa phần mềm độc hại thực sự có hại bị phân loại là phần mềm độc hại.
Âm tính giả
Âm tính giả sẽ là trang web chứa phần mềm độc hại không chính xác được phân loại là trang web hợp pháp.
Âm tính thực sự
Trang web phủ định thực sự là trang web hợp lệ được phân loại là trang web hợp pháp.
2. Nói chung, điều gì xảy ra với số lượng dương tính giả khi ngưỡng phân loại sẽ tăng lên không? Còn dương tính thật thì sao? Thử nghiệm bằng thanh trượt ở trên.
Cả số dương tính đúng và dương tính giả đều giảm.
Khi ngưỡng tăng lên, mô hình này có thể sẽ dự đoán xét về tổng thể thì số lượng kết quả tích cực hơn, cả đúng và sai. Trình phân loại spam có ngưỡng 0,9999 sẽ chỉ gắn nhãn email là thư rác nếu email đó xem xét xác suất phân loại có khả năng xảy ra tối thiểu là 99,99%, nghĩa là tỷ lệ có thể không có khả năng gắn nhãn sai một email hợp lệ, nhưng cũng có thể bỏ lỡ các email thực tế email rác.
Cả số dương tính đúng và dương tính giả đều tăng.
Sử dụng thanh trượt ở trên, thử đặt ngưỡng là 0,1, sau đó kéo nó đến vị trí 0.9. Điều gì xảy ra với số lượng dương tính giả và dương tính thật không?
Lượng chỉ số tích cực thực sự tăng lên. Số lượng dương tính giả giảm đi.
Sử dụng thanh trượt ở trên, thử đặt ngưỡng là 0,1, sau đó kéo nó đến vị trí 0.9. Điều gì xảy ra với số lượng dương tính giả và dương tính thật không?
3. Nói chung, điều gì xảy ra với số lượng âm tính giả khi ngưỡng phân loại sẽ tăng lên không? Còn âm tính thực sự thì sao? Thử nghiệm bằng thanh trượt ở trên.
Cả số âm tính đúng và âm tính giả đều tăng.
Khi ngưỡng tăng lên, mô hình này có thể sẽ dự đoán kết quả tiêu cực hơn, cả đúng và sai. Ở một ngưỡng rất cao, hầu hết email, cả thư rác và không phải thư rác, đều sẽ được phân loại là không phải thư rác.
Cả âm tính đúng và âm tính giả đều giảm.
Sử dụng thanh trượt ở trên, thử đặt ngưỡng là 0,1, sau đó kéo nó đến vị trí 0.9. Điều gì xảy ra với số lượng kết quả âm tính giả và âm tính thực không?
Số lượng phủ định thực tăng lên. Số lượng âm tính giả giảm.
Sử dụng thanh trượt ở trên, thử đặt ngưỡng là 0,1, sau đó kéo nó đến vị trí 0.9. Điều gì xảy ra với số lượng kết quả âm tính giả và âm tính thực không?