Phân loại: Độ chính xác, mức độ ghi nhớ, độ chính xác và các chỉ số liên quan

Kết quả dương tính giả (True) và dương tính giả (FN) được dùng để tính toán một số chỉ số hữu ích cho việc đánh giá mô hình. Chỉ số đánh giá nào có ý nghĩa nhất phụ thuộc vào mô hình cụ thể và nhiệm vụ cụ thể, chi phí của các kiểu phân loại sai khác nhau và liệu tập dữ liệu có cân bằng hay không.

Tất cả chỉ số trong phần này được tính theo một ngưỡng cố định và thay đổi khi ngưỡng đó thay đổi. Thông thường, người dùng sẽ điều chỉnh ngưỡng để tối ưu hoá một trong các chỉ số này.

Độ chính xác

Độ chính xác là tỷ lệ phần trăm tất cả các phân loại chính xác, cho dù là phân loại dương hay âm. Giá trị này được định nghĩa theo toán học là:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm tất cả email được phân loại chính xác.

Một mô hình hoàn hảo sẽ không có kết quả dương tính giả và âm tính giả nào, do đó, độ chính xác là 1.0 hoặc 100%.

Vì chỉ số này kết hợp cả 4 kết quả từ ma trận nhầm lẫn (TP, FP, TN, FN), với một tập dữ liệu cân bằng, có số lượng ví dụ tương tự nhau trong cả hai lớp, nên độ chính xác có thể đóng vai trò là một chỉ số chi tiết về chất lượng mô hình. Vì lý do này, đây thường là chỉ số đánh giá mặc định được dùng cho các mô hình chung hoặc không xác định thực hiện các tác vụ chung hoặc không xác định.

Tuy nhiên, khi tập dữ liệu không cân bằng hoặc khi một loại lỗi (FN hoặc FP) gây tốn kém hơn loại lỗi còn lại, như trong hầu hết các ứng dụng thực tế, bạn nên tối ưu hoá cho một trong các chỉ số khác.

Đối với các tập dữ liệu mất cân bằng nghiêm trọng, trong đó một lớp xuất hiện rất hiếm, giả sử là 1% thời gian, thì một mô hình dự đoán âm 100% thời gian sẽ đạt điểm chính xác là 99%, mặc dù không hữu ích.

Tỷ lệ thu hồi hoặc tỷ lệ dương tính thật

Tỷ lệ dương tính thật (TPR), hay tỷ lệ phần trăm tất cả các kết quả dương tính thực tế được phân loại chính xác là dương tính, còn được gọi là tỷ lệ thu hồi.

Thu hồi được định nghĩa về mặt toán học như sau:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Kết quả âm tính giả là kết quả dương tính thực tế bị phân loại nhầm thành kết quả âm tính, đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, giá trị gợi nhắc đo lường tỷ lệ phần trăm email rác được phân loại chính xác là email rác. Đây là lý do tại sao tên gọi khác của tỷ lệ thu hồi là xác suất phát hiện: tỷ lệ này trả lời câu hỏi "Mô hình này phát hiện được bao nhiêu phần trăm email rác?"

Một mô hình hoàn hảo theo giả định sẽ không có âm tính giả và do đó có giá trị gợi lại (TPR) là 1, 0, tức là tỷ lệ phát hiện là 100%.

Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ dương tính thực tế rất thấp, giả sử tổng cộng có 1-2 ví dụ, thì chỉ số hồi quy sẽ ít có ý nghĩa và ít hữu ích hơn.

Tỷ lệ dương tính giả

Tỷ lệ dương tính giả (FPR) là tỷ lệ phần trăm của tất cả các kết quả âm tính thực tế bị phân loại không chính xác là dương tính, còn được gọi là xác suất báo động giả. Giá trị này được định nghĩa theo toán học là:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Dương tính giả là kết quả âm tính thực tế bị phân loại sai, đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, FPR đo lường tỷ lệ phần trăm email hợp lệ bị phân loại nhầm là thư rác hoặc tỷ lệ cảnh báo sai của mô hình.

Một mô hình hoàn hảo sẽ không có kết quả dương tính giả nào, do đó, FPR sẽ bằng 0, nghĩa là tỷ lệ cảnh báo giả là 0%.

Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ âm tính thực tế rất thấp, giả sử tổng cộng có 1-2 ví dụ, FPR sẽ ít có ý nghĩa và ít hữu ích hơn khi được dùng làm chỉ số.

Chính xác

Độ chính xác là tỷ lệ phần trăm tất cả các kết quả phân loại dương tính của mô hình thực sự là dương tính. Nó được định nghĩa về mặt toán học là:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm email được phân loại là thư rác thực sự là thư rác.

Một mô hình hoàn hảo giả định sẽ không có kết quả dương tính giả nào, do đó có độ chính xác là 1.0.

Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ thực tế là rất thấp, giả sử tổng cộng có 1-2 ví dụ, độ chính xác sẽ ít có ý nghĩa và ít hữu ích hơn dưới dạng một chỉ số.

Độ chính xác sẽ cải thiện khi kết quả dương tính giả giảm, còn khả năng thu hồi sẽ cải thiện khi giá trị âm tính giả giảm. Nhưng như đã thấy trong phần trước, việc tăng ngưỡng phân loại có xu hướng làm giảm số lượng dương tính giả và tăng số lượng âm tính giả, trong khi việc giảm ngưỡng sẽ gây ra tác động ngược lại. Do đó, độ chính xác và mức độ truy lại thường cho thấy mối quan hệ nghịch đảo, trong đó việc cải thiện một trong số này sẽ làm xấu đi yếu tố còn lại.

Hãy tự thử:

NaN có ý nghĩa gì trong các chỉ số?

NaN hoặc "not a number" (không phải số) xuất hiện khi chia cho 0. Điều này có thể xảy ra với bất kỳ chỉ số nào trong số này. Ví dụ: khi TP và FP đều bằng 0, công thức cho độ chính xác sẽ có 0 trong mẫu số, dẫn đến NaN. Mặc dù trong một số trường hợp, NaN có thể cho biết hiệu suất hoàn hảo và có thể được thay thế bằng điểm số 1.0, nhưng giá trị này cũng có thể đến từ một mô hình thực tế là vô dụng. Ví dụ: một mô hình không bao giờ dự đoán giá trị dương sẽ có 0 TP và 0 FP, do đó, việc tính toán độ chính xác của mô hình này sẽ dẫn đến NaN.

Lựa chọn chỉ số và đánh đổi

(Các) chỉ số mà bạn chọn ưu tiên khi đánh giá mô hình và chọn ngưỡng phụ thuộc vào chi phí, lợi ích và rủi ro của vấn đề cụ thể. Trong ví dụ về việc phân loại thư rác, bạn thường nên ưu tiên độ chính xác, cố gắng đảm bảo rằng các email được gắn nhãn là thư rác thực sự là thư rác, hoặc cân bằng giữa hai yếu tố này, ở mức độ chính xác tối thiểu.

Chỉ số Hướng dẫn
Độ chính xác

Sử dụng làm chỉ báo sơ bộ về tiến trình/quá trình hội tụ của mô hình đối với các tập dữ liệu cân bằng.

Đối với hiệu suất của mô hình, chỉ sử dụng kết hợp với các chỉ số khác.

Tránh dùng cho tập dữ liệu không cân bằng. Cân nhắc sử dụng một chỉ số khác.

Tỷ lệ thu hồi
(Tỷ lệ dương tính thật)
Sử dụng khi giá trị âm tính giả đắt hơn so với dương tính giả.
Tỷ lệ dương tính giả Sử dụng khi kết quả dương tính giả tốn kém hơn kết quả âm tính giả.
Chính xác Sử dụng khi rất quan trọng để dự đoán dương tính chính xác.

Điểm F1 (không bắt buộc, nâng cao)

Điểm F1 là trung bình điều hoà (một loại trung bình) của độ chính xác và độ hồi quy.

Về mặt toán học, giá trị này được xác định bằng:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Chỉ số này cân bằng tầm quan trọng của độ chính xác và độ hồi quy, đồng thời ưu tiên độ chính xác cho các tập dữ liệu bất cân đối về loại. Khi độ chính xác và độ hồi quy đều có điểm số hoàn hảo là 1,0, F1 cũng sẽ có điểm số hoàn hảo là 1,0. Nói rộng hơn, khi độ chính xác và độ hồi quy có giá trị gần nhau, F1 sẽ gần với giá trị của chúng. Khi độ chính xác và độ hồi quy khác nhau một cách đáng kể, F1 sẽ tương tự như chỉ số nào kém hơn.

Bài tập: Kiểm tra mức độ hiểu bài

Một mô hình cho ra 5 TP, 6 TN, 3 FP và 2 FN. Tính năng gọi lại.
0,714
Mức độ gợi nhắc được tính là \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Thu hồi sẽ xem xét mọi kết quả tích cực thực tế, chứ không phải mọi kết quả phân loại chính xác. Công thức để gọi lại là \(\frac{TP}{TP+FN}\).
0,625
Mức độ gợi nhắc xem xét tất cả các kết quả dương tính thực tế, chứ không phải tất cả các kết quả phân loại dương tính. Công thức để gọi lại là \(\frac{TP}{TP+FN}\)
Một mô hình cho ra 3 TP, 4 TN, 2 FP và 1 FN. Tính độ chính xác.
0,6
Độ chính xác được tính bằng \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
Độ chính xác xem xét tất cả các kết quả phân loại dương tính, chứ không phải tất cả kết quả dương tính thực tế. Công thức cho độ chính xác là \(\frac{TP}{TP+FP}\).
0,429
Độ chính xác xem xét tất cả các lớp tích cực, chứ không phải tất cả các lớp chính xác. Công thức tính độ chính xác là \(\frac{TP}{TP+FP}\)
Bạn đang xây dựng một thuật toán phân loại nhị phân để kiểm tra ảnh của bẫy côn trùng xem có loài xâm lấn nguy hiểm nào hay không. Nếu mô hình phát hiện được loài này, thì nhà côn trùng học (nhà khoa học nghiên cứu về côn trùng) trực sẽ được thông báo. Việc phát hiện sớm côn trùng này là rất quan trọng để ngăn chặn sự xâm hại. Cảnh báo giả (dương tính giả) rất dễ xử lý: nhà côn trùng học sẽ thấy ảnh bị phân loại nhầm và đánh dấu ảnh đó là cảnh báo giả. Giả sử có một mức độ chính xác chấp nhận được, mô hình này nên được tối ưu hoá cho chỉ số nào?
Nhớ lại
Trong trường hợp này, cảnh báo giả (FP) có chi phí thấp và âm tính giả thì rất tốn kém. Vì vậy, bạn nên tối đa hoá khả năng thu hồi hoặc xác suất phát hiện.
Tỷ lệ dương tính giả (FPR)
Trong trường hợp này, cảnh báo sai (FP) có chi phí thấp. Việc cố gắng giảm thiểu các kết quả dương tính giả mạo với nguy cơ bỏ lỡ các kết quả dương tính thực sự là không hợp lý.
Chính xác
Trong trường hợp này, cảnh báo giả (FP) không gây hại nhiều, vì vậy, việc cố gắng cải thiện độ chính xác của các lớp tích cực là không hợp lý.