Phân loại: Độ chính xác, mức độ ghi nhớ, độ chính xác và các chỉ số liên quan

Kết quả dương tính và âm tính thực và giả được dùng để tính toán một số chỉ số hữu ích cho việc đánh giá mô hình. Chỉ số đánh giá nào có ý nghĩa nhất phụ thuộc vào mô hình cụ thể và nhiệm vụ cụ thể, chi phí của các kiểu phân loại sai khác nhau và liệu tập dữ liệu có cân bằng hay không.

Tất cả chỉ số trong phần này được tính theo một ngưỡng cố định và thay đổi khi ngưỡng đó thay đổi. Thông thường, người dùng sẽ điều chỉnh ngưỡng để tối ưu hoá một trong các chỉ số này.

Độ chính xác

Độ chính xác là tỷ lệ phần trăm tất cả các phân loại chính xác, cho dù là phân loại dương hay âm. Giá trị này được định nghĩa theo toán học là:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm tất cả email được phân loại chính xác.

Một mô hình hoàn hảo sẽ không có dương tính giả và không có âm tính giả, do đó, độ chính xác là 1 hoặc 100%.

Vì chỉ số này kết hợp cả 4 kết quả từ ma trận nhầm lẫn (TP, FP, TN, FN), với một tập dữ liệu cân bằng, có số lượng ví dụ tương tự nhau trong cả hai lớp, nên độ chính xác có thể đóng vai trò là một chỉ số chi tiết về chất lượng mô hình. Vì lý do này, đây thường là chỉ số đánh giá mặc định được dùng cho các mô hình chung chung hoặc chưa xác định thực hiện các tác vụ chung chung hoặc chưa xác định.

Tuy nhiên, khi tập dữ liệu không cân bằng hoặc khi một loại lỗi (FN hoặc FP) gây tốn kém hơn loại lỗi còn lại, như trong hầu hết các ứng dụng thực tế, bạn nên tối ưu hoá cho một trong các chỉ số khác.

Đối với các tập dữ liệu mất cân bằng nghiêm trọng, trong đó một lớp xuất hiện rất hiếm, giả sử là 1% thời gian, thì một mô hình dự đoán âm 100% thời gian sẽ đạt điểm chính xác là 99%, mặc dù không hữu ích.

Thu hồi hoặc tỷ lệ dương tính thật

Tỷ lệ dương tính thật (TPR), hay tỷ lệ phần trăm tất cả các kết quả dương tính thực tế được phân loại chính xác là dương tính, còn được gọi là tỷ lệ thu hồi.

Mức độ gợi nhắc được định nghĩa theo toán học là:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Kết quả âm tính giả là kết quả dương tính thực tế bị phân loại nhầm thành kết quả âm tính, đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, giá trị gợi nhắc đo lường tỷ lệ phần trăm email rác được phân loại chính xác là email rác. Đây là lý do tại sao tên gọi khác của tỷ lệ thu hồi là xác suất phát hiện: tỷ lệ này trả lời câu hỏi "Mô hình này phát hiện được bao nhiêu phần trăm email rác?"

Một mô hình hoàn hảo giả định sẽ không có kết quả âm tính giả, do đó, tỷ lệ thu hồi (TPR) là 1,0, tức là tỷ lệ phát hiện là 100%.

Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ dương tính thực tế rất thấp, giả sử tổng cộng có 1-2 ví dụ, thì chỉ số hồi quy sẽ ít có ý nghĩa và ít hữu ích hơn.

Tỷ lệ dương tính giả

Tỷ lệ dương tính giả (FPR) là tỷ lệ phần trăm của tất cả các kết quả âm tính thực tế bị phân loại không chính xác là dương tính, còn được gọi là xác suất báo động giả. Giá trị này được định nghĩa theo toán học là:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Kết quả dương tính giả là kết quả âm tính thực tế bị phân loại sai, đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, FPR đo lường tỷ lệ phần trăm email hợp lệ bị phân loại nhầm là thư rác hoặc tỷ lệ cảnh báo sai của mô hình.

Một mô hình hoàn hảo sẽ không có dương tính giả và do đó, FPR là 0,0, tức là tỷ lệ cảnh báo sai 0%.

Trong một tập dữ liệu không cân bằng có tổng số giá trị âm tính thực tế rất thấp, giả sử chỉ có 1 đến 2 ví dụ, thì FPR sẽ kém ý nghĩa và kém hữu ích hơn khi làm chỉ số.

Chính xác

Độ chính xác là tỷ lệ tất cả các phân loại tích cực của mô hình thực sự là dương. Giá trị này được xác định theo toán học như sau:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm email được phân loại là thư rác thực sự là thư rác.

Một mô hình hoàn hảo giả định sẽ không có kết quả dương tính giả nào, do đó có độ chính xác là 1.0.

Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ thực tế là rất thấp, giả sử tổng cộng có 1-2 ví dụ, độ chính xác sẽ ít có ý nghĩa và ít hữu ích hơn dưới dạng một chỉ số.

Độ chính xác sẽ cải thiện khi số lượng kết quả dương tính giả giảm, trong khi độ hồi quy sẽ cải thiện khi số lượng kết quả âm tính giả giảm. Tuy nhiên, như đã thấy trong phần trước, việc tăng ngưỡng phân loại có xu hướng làm giảm số lượng kết quả dương tính giả và tăng số lượng kết quả âm tính giả, trong khi việc giảm ngưỡng sẽ có tác động ngược lại. Do đó, độ chính xác và mức độ truy lại thường cho thấy mối quan hệ nghịch đảo, trong đó việc cải thiện một trong số này sẽ làm xấu đi yếu tố còn lại.

Hãy tự thử:

NaN có ý nghĩa gì trong các chỉ số?

NaN hoặc "not a number" (không phải số) xuất hiện khi chia cho 0. Điều này có thể xảy ra với bất kỳ chỉ số nào trong số này. Ví dụ: khi TP và FP đều bằng 0, công thức cho độ chính xác sẽ có 0 trong mẫu số, dẫn đến NaN. Mặc dù trong một số trường hợp, NaN có thể cho biết hiệu suất hoàn hảo và có thể được thay thế bằng điểm số 1.0, nhưng cũng có thể đến từ một mô hình thực tế không hữu ích. Ví dụ: một mô hình không bao giờ dự đoán giá trị dương sẽ có 0 TP và 0 FP, do đó, việc tính toán độ chính xác của mô hình này sẽ dẫn đến NaN.

Lựa chọn chỉ số và đánh đổi

(Các) chỉ số mà bạn chọn ưu tiên khi đánh giá mô hình và chọn ngưỡng phụ thuộc vào chi phí, lợi ích và rủi ro của vấn đề cụ thể. Trong ví dụ về phân loại thư rác, thông thường, bạn nên ưu tiên thu hồi, lấy tất cả các email rác hoặc đảm bảo độ chính xác, cố gắng đảm bảo rằng các email có gắn nhãn thư rác thực sự là thư rác, hoặc ở mức cân bằng nào đó, trên mức độ chính xác tối thiểu nào đó.

Chỉ số Hướng dẫn
Độ chính xác

Sử dụng làm chỉ báo sơ bộ về tiến trình/quá trình hội tụ của mô hình đối với các tập dữ liệu cân bằng.

Đối với hiệu suất của mô hình, chỉ sử dụng kết hợp với các chỉ số khác.

Tránh dùng cho tập dữ liệu không cân bằng. Cân nhắc sử dụng một chỉ số khác.

Tỷ lệ thu hồi
(Tỷ lệ dương tính thật)
Sử dụng khi kết quả âm tính giả tốn kém hơn kết quả dương tính giả.
Tỷ lệ dương tính giả Sử dụng khi kết quả dương tính giả tốn kém hơn kết quả âm tính giả.
Chính xác Sử dụng khi rất quan trọng để dự đoán dương tính chính xác.

(Không bắt buộc, nâng cao) Điểm F1

Điểm F1 là trung bình điều hoà (một loại trung bình) của độ chính xác và độ hồi quy.

Về mặt toán học, nó được tính bằng:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Chỉ số này cân bằng tầm quan trọng của độ chính xác và độ hồi quy, đồng thời ưu tiên độ chính xác cho các tập dữ liệu bất cân đối về loại. Khi độ chính xác và gọi lại đều có điểm số hoàn hảo là 1,0, thì độ chính xác F1 cũng sẽ có điểm hoàn hảo là 1.0. Nói rộng hơn, khi độ chính xác và độ hồi quy có giá trị gần nhau, F1 sẽ gần với giá trị của chúng. Khi độ chính xác và độ hồi quy khác nhau một cách đáng kể, F1 sẽ tương tự như chỉ số nào kém hơn.

Bài tập: Kiểm tra kiến thức

Một mô hình cho ra 5 TP, 6 TN, 3 FP và 2 FN. Tính năng gọi lại.
0,714
Mức độ hồi quy được tính là [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Mức độ gợi nhắc xem xét tất cả các kết quả dương tính thực tế, chứ không phải tất cả các kết quả phân loại chính xác. Công thức tính thu hồi là [\frac{TP}{TP+FN}].
0,625
Mức độ gợi nhắc xem xét tất cả các kết quả dương tính thực tế, chứ không phải tất cả các kết quả phân loại dương tính. Công thức tính thu hồi là [\frac{TP}{TP+FN}]
Một mô hình cho ra 3 TP, 4 TN, 2 FP và 1 FN. Tính toán độ chính xác.
0,6
Độ chính xác được tính là [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
Độ chính xác sẽ xem xét mọi phân loại dương, không phải tất cả các kết quả dương tính thực sự. Công thức tính độ chính xác là [\frac{TP}{TP+FP}].
0,429
Độ chính xác xem xét tất cả các lớp tích cực, chứ không phải tất cả các lớp chính xác. Công thức tính độ chính xác là [\frac{TP}{TP+FP}]
Bạn đang xây dựng một thuật toán phân loại nhị phân để kiểm tra ảnh chụp bẫy côn trùng để xem có loài xâm lấn nguy hiểm nào hay không. Nếu mô hình phát hiện được loài này, thì nhà côn trùng học (nhà khoa học nghiên cứu về côn trùng) trực sẽ được thông báo. Việc phát hiện sớm côn trùng này là rất quan trọng để ngăn chặn sự xâm hại. Cảnh báo giả (dương tính giả) rất dễ xử lý: nhà côn trùng học sẽ thấy ảnh bị phân loại nhầm và đánh dấu ảnh đó là cảnh báo giả. Giả sử có một mức độ chính xác chấp nhận được, mô hình này nên được tối ưu hoá cho chỉ số nào?
Nhớ lại
Trong trường hợp này, cảnh báo giả (FP) có chi phí thấp và cảnh báo âm giả (FN) có chi phí cao, vì vậy, bạn nên tăng tối đa khả năng gợi nhắc hoặc xác suất phát hiện.
Tỷ lệ dương tính giả (FPR)
Trong trường hợp này, cảnh báo sai (FP) có chi phí thấp. Việc cố gắng giảm thiểu các kết quả dương tính giả mạo với nguy cơ bỏ lỡ các kết quả dương tính thực sự là không hợp lý.
Chính xác
Trong trường hợp này, chuông báo sai (FP) không đặc biệt có hại. Vì vậy, việc cố gắng cải thiện độ chính xác của hoạt động phân loại dương là không hợp lý.