Kết quả dương tính giả (True) và dương tính giả (FN) được dùng để tính toán một số chỉ số hữu ích cho việc đánh giá mô hình. Chỉ số đánh giá nào có ý nghĩa nhất phụ thuộc vào mô hình cụ thể và nhiệm vụ cụ thể, chi phí của các kiểu phân loại sai khác nhau và liệu tập dữ liệu có cân bằng hay không.
Tất cả chỉ số trong phần này được tính theo một ngưỡng cố định và thay đổi khi ngưỡng đó thay đổi. Thông thường, người dùng sẽ điều chỉnh ngưỡng để tối ưu hoá một trong các chỉ số này.
Độ chính xác
Độ chính xác là tỷ lệ phần trăm tất cả các phân loại chính xác, cho dù là phân loại dương hay âm. Giá trị này được định nghĩa theo toán học là:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm tất cả email được phân loại chính xác.
Một mô hình hoàn hảo sẽ không có kết quả dương tính giả và âm tính giả nào, do đó, độ chính xác là 1.0 hoặc 100%.
Vì chỉ số này kết hợp cả 4 kết quả từ ma trận nhầm lẫn (TP, FP, TN, FN), với một tập dữ liệu cân bằng, có số lượng ví dụ tương tự nhau trong cả hai lớp, nên độ chính xác có thể đóng vai trò là một chỉ số chi tiết về chất lượng mô hình. Vì lý do này, đây thường là chỉ số đánh giá mặc định được dùng cho các mô hình chung hoặc không xác định thực hiện các tác vụ chung hoặc không xác định.
Tuy nhiên, khi tập dữ liệu không cân bằng hoặc khi một loại lỗi (FN hoặc FP) gây tốn kém hơn loại lỗi còn lại, như trong hầu hết các ứng dụng thực tế, bạn nên tối ưu hoá cho một trong các chỉ số khác.
Đối với các tập dữ liệu mất cân bằng nghiêm trọng, trong đó một lớp xuất hiện rất hiếm, giả sử là 1% thời gian, thì một mô hình dự đoán âm 100% thời gian sẽ đạt điểm chính xác là 99%, mặc dù không hữu ích.
Tỷ lệ thu hồi hoặc tỷ lệ dương tính thật
Tỷ lệ dương tính thật (TPR), hay tỷ lệ phần trăm tất cả các kết quả dương tính thực tế được phân loại chính xác là dương tính, còn được gọi là tỷ lệ thu hồi.
Thu hồi được định nghĩa về mặt toán học như sau:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Kết quả âm tính giả là kết quả dương tính thực tế bị phân loại nhầm thành kết quả âm tính, đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, giá trị gợi nhắc đo lường tỷ lệ phần trăm email rác được phân loại chính xác là email rác. Đây là lý do tại sao tên gọi khác của tỷ lệ thu hồi là xác suất phát hiện: tỷ lệ này trả lời câu hỏi "Mô hình này phát hiện được bao nhiêu phần trăm email rác?"
Một mô hình hoàn hảo theo giả định sẽ không có âm tính giả và do đó có giá trị gợi lại (TPR) là 1, 0, tức là tỷ lệ phát hiện là 100%.
Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ dương tính thực tế rất thấp, giả sử tổng cộng có 1-2 ví dụ, thì chỉ số hồi quy sẽ ít có ý nghĩa và ít hữu ích hơn.
Tỷ lệ dương tính giả
Tỷ lệ dương tính giả (FPR) là tỷ lệ phần trăm của tất cả các kết quả âm tính thực tế bị phân loại không chính xác là dương tính, còn được gọi là xác suất báo động giả. Giá trị này được định nghĩa theo toán học là:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Dương tính giả là kết quả âm tính thực tế bị phân loại sai, đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về việc phân loại thư rác, FPR đo lường tỷ lệ phần trăm email hợp lệ bị phân loại nhầm là thư rác hoặc tỷ lệ cảnh báo sai của mô hình.
Một mô hình hoàn hảo sẽ không có kết quả dương tính giả nào, do đó, FPR sẽ bằng 0, nghĩa là tỷ lệ cảnh báo giả là 0%.
Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ âm tính thực tế rất thấp, giả sử tổng cộng có 1-2 ví dụ, FPR sẽ ít có ý nghĩa và ít hữu ích hơn khi được dùng làm chỉ số.
Chính xác
Độ chính xác là tỷ lệ phần trăm tất cả các kết quả phân loại dương tính của mô hình thực sự là dương tính. Nó được định nghĩa về mặt toán học là:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Trong ví dụ về việc phân loại thư rác, độ chính xác đo lường tỷ lệ phần trăm email được phân loại là thư rác thực sự là thư rác.
Một mô hình hoàn hảo giả định sẽ không có kết quả dương tính giả nào, do đó có độ chính xác là 1.0.
Trong một tập dữ liệu mất cân bằng, trong đó số lượng ví dụ thực tế là rất thấp, giả sử tổng cộng có 1-2 ví dụ, độ chính xác sẽ ít có ý nghĩa và ít hữu ích hơn dưới dạng một chỉ số.
Độ chính xác sẽ cải thiện khi kết quả dương tính giả giảm, còn khả năng thu hồi sẽ cải thiện khi giá trị âm tính giả giảm. Nhưng như đã thấy trong phần trước, việc tăng ngưỡng phân loại có xu hướng làm giảm số lượng dương tính giả và tăng số lượng âm tính giả, trong khi việc giảm ngưỡng sẽ gây ra tác động ngược lại. Do đó, độ chính xác và mức độ truy lại thường cho thấy mối quan hệ nghịch đảo, trong đó việc cải thiện một trong số này sẽ làm xấu đi yếu tố còn lại.
Hãy tự thử:
NaN có ý nghĩa gì trong các chỉ số?
NaN hoặc "not a number" (không phải số) xuất hiện khi chia cho 0. Điều này có thể xảy ra với bất kỳ chỉ số nào trong số này. Ví dụ: khi TP và FP đều bằng 0, công thức cho độ chính xác sẽ có 0 trong mẫu số, dẫn đến NaN. Mặc dù trong một số trường hợp, NaN có thể cho biết hiệu suất hoàn hảo và có thể được thay thế bằng điểm số 1.0, nhưng giá trị này cũng có thể đến từ một mô hình thực tế là vô dụng. Ví dụ: một mô hình không bao giờ dự đoán giá trị dương sẽ có 0 TP và 0 FP, do đó, việc tính toán độ chính xác của mô hình này sẽ dẫn đến NaN.
Lựa chọn chỉ số và đánh đổi
(Các) chỉ số mà bạn chọn ưu tiên khi đánh giá mô hình và chọn ngưỡng phụ thuộc vào chi phí, lợi ích và rủi ro của vấn đề cụ thể. Trong ví dụ về việc phân loại thư rác, bạn thường nên ưu tiên độ chính xác, cố gắng đảm bảo rằng các email được gắn nhãn là thư rác thực sự là thư rác, hoặc cân bằng giữa hai yếu tố này, ở mức độ chính xác tối thiểu.
Chỉ số | Hướng dẫn |
---|---|
Độ chính xác | Sử dụng làm chỉ báo sơ bộ về tiến trình/quá trình hội tụ của mô hình đối với các tập dữ liệu cân bằng. Đối với hiệu suất của mô hình, chỉ sử dụng kết hợp với các chỉ số khác. Tránh dùng cho tập dữ liệu không cân bằng. Cân nhắc sử dụng một chỉ số khác. |
Tỷ lệ thu hồi (Tỷ lệ dương tính thật) |
Sử dụng khi giá trị âm tính giả đắt hơn so với dương tính giả. |
Tỷ lệ dương tính giả | Sử dụng khi kết quả dương tính giả tốn kém hơn kết quả âm tính giả. |
Chính xác | Sử dụng khi rất quan trọng để dự đoán dương tính chính xác. |
Điểm F1 (không bắt buộc, nâng cao)
Điểm F1 là trung bình điều hoà (một loại trung bình) của độ chính xác và độ hồi quy.
Về mặt toán học, giá trị này được xác định bằng:
Chỉ số này cân bằng tầm quan trọng của độ chính xác và độ hồi quy, đồng thời ưu tiên độ chính xác cho các tập dữ liệu bất cân đối về loại. Khi độ chính xác và độ hồi quy đều có điểm số hoàn hảo là 1,0, F1 cũng sẽ có điểm số hoàn hảo là 1,0. Nói rộng hơn, khi độ chính xác và độ hồi quy có giá trị gần nhau, F1 sẽ gần với giá trị của chúng. Khi độ chính xác và độ hồi quy khác nhau một cách đáng kể, F1 sẽ tương tự như chỉ số nào kém hơn.