Phân loại: Độ chính xác, mức độ ghi nhớ, độ chính xác và các chỉ số liên quan

Giá trị âm và dương thực được dùng để tính toán giá trị hữu ích chỉ số để đánh giá mô hình. Chỉ số đánh giá nào quan trọng nhất có ý nghĩa tuỳ thuộc vào mô hình cụ thể và tác vụ cụ thể, chi phí các trường hợp phân loại sai khác nhau, và liệu tập dữ liệu đã cân bằng hay không cân bằng.

Tất cả các chỉ số trong mục này đều được tính toán ở một ngưỡng cố định duy nhất, và thay đổi khi ngưỡng thay đổi. Người dùng rất thường điều chỉnh ngưỡng để tối ưu hoá một trong các chỉ số này.

Độ chính xác

Độ chính xác là tỷ lệ tất cả chính xác, dù là tích cực hay tiêu cực. Đó là được xác định theo toán học là:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Trong ví dụ về phân loại thư rác, độ chính xác đo lường phân số của tất cả email được phân loại chính xác.

Một mô hình hoàn hảo sẽ không có dương tính giả, không có âm tính giả và nên độ chính xác là 1, 0 hay 100%.

Bởi vì công cụ này kết hợp cả 4 kết quả của ma trận nhầm lẫn (TP, FP, TN, FN), dựa trên giá trị với số lượng ví dụ tương tự ở cả hai lớp, độ chính xác đóng vai trò là thước đo tương đối về chất lượng mô hình. Vì lý do này, thông thường chỉ số đánh giá mặc định được dùng cho mô hình chung hoặc mô hình chưa được chỉ định thực hiện các nhiệm vụ chung chung hoặc không xác định.

Tuy nhiên, khi tập dữ liệu không cân bằng, hoặc khi một loại sai lầm (FN hoặc FP) tốn kém hơn loại khác, đó là trong hầu hết các ứng dụng thực tế, tốt hơn bạn nên tối ưu hoá cho một trong các chỉ số khác.

Đối với các tập dữ liệu mất cân bằng nặng, trong đó một lớp xuất hiện rất hiếm khi, giả sử 1% thời gian thì mô hình dự đoán âm 100% thời gian sẽ đạt điểm 99% vào chính xác, mặc dù vô ích.

Thu hồi hoặc tỷ lệ dương tính thật

Tỷ lệ dương tính thực (TPR) hoặc tỷ lệ của tất cả các kết quả dương tính thực tế đã được phân loại chính xác là dương tính, còn được gọi là khơi gợi.

Thu hồi được định nghĩa về mặt toán học như sau:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Âm tính giả là kết quả dương tính thực tế bị phân loại sai là âm tính, do đó là lý do tại sao chúng xuất hiện trong mẫu số. Trong ví dụ về phân loại spam, Recall đo lường nhóm email rác được phân loại chính xác là nội dung rác. Đây là lý do tại sao lại có một tên gọi khác của thuật ngữ thu hồi là xác suất phát hiện: phương thức này trả lời câu hỏi "Có bao nhiêu email rác được hệ thống phát hiện người mẫu?"

Một mô hình hoàn hảo theo giả định sẽ không có âm tính giả và do đó thu hồi (TPR) là 1.0, tức là tỷ lệ phát hiện 100%.

Trong một tập dữ liệu không cân bằng có số lượng giá trị dương thực tế rất, rất thấp, giả sử sử dụng tổng cộng 1 đến 2 ví dụ, mức độ ghi nhớ không có ý nghĩa và kém hữu ích làm chỉ số.

Tỷ lệ dương tính giả

Tỷ lệ dương tính giả (FPR) là tỷ lệ tất cả các kết quả phủ định thực tế đã được phân loại không chính xác dưới dạng dương tính, còn gọi là xác suất cảnh báo giả. Đó là được xác định theo toán học là:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Dương tính giả là những kết quả âm tính thực sự bị phân loại sai, do đó có xuất hiện trong mẫu số. Trong ví dụ về phân loại spam, FPR đo lường một phần email hợp lệ bị phân loại nhầm là thư rác hoặc tỷ lệ cảnh báo sai trong mô hình.

Một mô hình hoàn hảo sẽ không có dương tính giả và do đó FPR bằng 0,0, tức là tỷ lệ cảnh báo sai là 0%.

Trong một tập dữ liệu không cân bằng có số lượng giá trị âm thực tế rất, rất thấp, giả sử tổng cộng 1-2 ví dụ, FPR ít có ý nghĩa và kém hữu ích hơn làm chỉ số.

Chính xác

Độ chính xác là tỷ lệ của tất cả các phân loại tích cực của mô hình thực sự tích cực. Nó được định nghĩa về mặt toán học là:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Trong ví dụ về phân loại thư rác, độ chính xác đo lường phân số email bị phân loại là nội dung rác thực sự.

Một mô hình hoàn hảo theo giả định sẽ không có dương tính giả và do đó có độ chính xác 1.0.

Trong một tập dữ liệu không cân bằng có số lượng giá trị dương thực tế rất, rất thấp, giả sử chỉ có 1 đến 2 ví dụ, thì độ chính xác sẽ kém ý nghĩa và kém hữu ích hơn làm chỉ số.

Độ chính xác sẽ cải thiện khi dương tính giả giảm xuống, đồng thời khả năng thu hồi được cải thiện khi âm tính giả giảm xuống. Nhưng như đã thấy trong phần trước, việc tăng ngưỡng phân loại có xu hướng làm giảm số lượng dương tính giả và làm tăng số lượng âm tính giả, còn giảm ngưỡng thì tác động trái chiều. Do đó, độ chính xác và mức độ ghi nhớ thường cho thấy sự chênh lệch mối quan hệ tốt đẹp, trong đó việc cải thiện một trong số này sẽ làm xấu đi yếu tố còn lại.

Lựa chọn chỉ số và đánh đổi

(Các) chỉ số mà bạn chọn ưu tiên khi đánh giá mô hình và việc chọn ngưỡng tuỳ thuộc vào chi phí, lợi ích và rủi ro của vấn đề cụ thể. Trong ví dụ về phân loại spam, thông thường ưu tiên thu hồi, lấy tất cả email rác hoặc chọn lọc chính xác, cố gắng đảm bảo rằng email được gắn nhãn spam thực sự là spam hoặc một số mức cân bằng của cả hai, trên mức độ chính xác tối thiểu nào đó.

Chỉ số Hướng dẫn
Độ chính xác

Dùng làm chỉ báo sơ bộ về mô hình tiến trình/mức độ hội tụ trong quá trình huấn luyện cho các tập dữ liệu cân bằng.

Để xem hiệu suất của mô hình, bạn chỉ nên sử dụng kết hợp với các chỉ số khác.

Tránh sử dụng đối với các tập dữ liệu không cân bằng. Hãy cân nhắc sử dụng một chỉ số khác.

Thu hồi
(Tỷ lệ dương thực thực)
Sử dụng khi tỷ lệ âm tính giả nhiều hơn đắt hơn so với dương tính giả.
Tỷ lệ dương tính giả Sử dụng khi kết quả dương tính giả sẽ đắt hơn cả âm tính giả.
Chính xác Sử dụng khi thực sự quan trọng đối với dự đoán tích cực trở nên chính xác.

Điểm F1 (không bắt buộc, nâng cao)

Điểm F1 là giá trị trung bình điều hoà (a trung bình) về độ chính xác và gợi nhớ.

Về mặt toán học, nó được tính bằng:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Chỉ số này cân bằng tầm quan trọng của độ chính xác và mức độ ghi nhớ, đồng thời ưu tiên độ chính xác đối với các tập dữ liệu không cân bằng về lớp. Khi độ chính xác và nhớ lại cả hai đều có điểm số hoàn hảo là 1.0, F1 cũng sẽ có số điểm hoàn hảo 1,0. Nói rộng hơn, khi độ chính xác và mức độ ghi nhớ có giá trị gần nhau, F1 sẽ gần với giá trị của chúng. Khi độ chính xác và độ thu hồi cách xa nhau, F1 sẽ tương tự với chỉ số nào kém hơn.

Bài tập: Kiểm tra kiến thức

Một mô hình đầu ra 5 TP, 6 TN, 3 FP và 2 FN. Tính lệnh thu hồi.
0,714
Thu hồi được tính bằng công thức [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Thu hồi xem xét mọi kết quả tích cực thực tế, không phải tất cả đều đúng phân loại. Công thức tính thu hồi là [\frac{TP}{TP+FN}].
0,625
Thu hồi xem xét mọi kết quả tích cực thực tế, chứ không phải tất cả các kết quả tích cực phân loại. Công thức tính thu hồi là [\frac{TP}{TP+FN}]
Một mô hình đầu ra 3 TP, 4 TN, 2 FP và 1 FN. Tính toán độ chính xác.
0,6
Độ chính xác được tính bằng [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
Độ chính xác xem xét tất cả các phân loại dương, không phải tất cả mặt tích cực thực tế. Công thức tính độ chính xác là [\frac{TP}{TP+FP}].
0,429
Độ chính xác xem xét tất cả các phân loại dương, không phải tất cả phân loại chính xác. Công thức tính độ chính xác là [\frac{TP}{TP+FP}]
Bạn đang xây dựng một thuật toán phân loại nhị phân để kiểm tra ảnh chụp bẫy côn trùng để xác định xem có loài xâm lấn nguy hiểm nào không. Nếu mô hình phát hiện loài, nhà côn trùng học (nhà khoa học côn trùng) đang làm nhiệm vụ sẽ được thông báo. Sáng sớm Việc phát hiện loài côn trùng này đóng vai trò quan trọng trong việc ngăn chặn sự xâm nhập của chúng. Đáp cảnh báo giả (dương tính giả) rất dễ xử lý: các nhà côn trùng học nhận thấy rằng ảnh đã bị phân loại sai và đánh dấu ảnh là như vậy. Giả sử có thể chấp nhận độ chính xác, mô hình này nên được tối ưu hoá cho chỉ số nào?
Nhớ lại
Trong trường hợp này, cảnh báo giả (FP) có chi phí thấp và là cảnh báo sai quảng cáo phủ định rất tốn kém, vì vậy việc tối đa hoá mức độ ghi nhớ hoặc xác suất của bạn.
Tỷ lệ dương tính giả (FPR)
Trong trường hợp này, cảnh báo giả (FP) có chi phí thấp. Đang cố gắng để giảm thiểu rủi ro thiếu các chỉ số tích cực thực tế sẽ không mang lại dễ hiểu.
Chính xác
Trong trường hợp này, cảnh báo giả (FP) không phải là cảnh báo đặc biệt có hại, vì vậy, cố gắng cải thiện độ chính xác của các phân loại tích cực là không hợp lý.