Phân loại: Kiểm tra kiến thức của bạn (ROC và AUC)

ROC và AUC

Hãy khám phá các lựa chọn bên dưới.

Đường cong ROC nào sau đây tạo ra giá trị AUC lớn hơn 0,5?
Đường cong ROC có đường thẳng chạy từ (0,0) đến (0,1) và đường ngang từ (0,1) đến (1,1). Giá TP là 1,0 cho tất cả giá FP.

Đây là đường cong ROC tốt nhất có thể, vì đường cong này xếp hạng tất cả các kết quả dương tính trên tất cả các số âm. Có AUC là 1.0.

Trong thực tế, nếu bạn có một bộ phân loại "Perfect" có AUC là 1.0, thì bạn nên nghi ngờ, vì việc này có thể chỉ ra lỗi trong mô hình của bạn. Ví dụ: bạn có thể có quá nhiều dữ liệu huấn luyện hoặc dữ liệu về nhãn có thể được sao chép vào một trong các tính năng của bạn.

Đường cong ROC có đường kẻ ngang chạy từ (0,0) đến (1,0) và đường thẳng đứng từ (1,0) đến (1,1). Tỷ lệ FP là 1,0 cho tất cả giá TP
Đây là đường cong ROC xấu nhất có thể; đường cong này xếp hạng tất cả các số âm trên tất cả các số dương và có AUC là 0, 0. Nếu bạn muốn đảo ngược mọi thông tin dự đoán (lật ngược âm tính từ dương tính và có âm từ âm tính), thì thực ra bạn đã có một thuật toán phân loại hoàn hảo!
Đường cong ROC có một đường chéo chạy từ (0,0) đến (1,1). Tỷ lệ TP và FP tăng theo tuyến tính với cùng một tốc độ.
Đường cong ROC này có AUC là 0,5, có nghĩa là đường cong này xếp hạng một ví dụ tích cực ngẫu nhiên cao hơn một ví dụ phủ định ngẫu nhiên 50% thời gian. Do đó, về cơ bản mô hình phân loại tương ứng sẽ không có giá trị, vì khả năng dự đoán của mô hình đó không tốt hơn suy đoán ngẫu nhiên.
Đường cong ROC uốn cong lên và sang phải từ (0,0) đến (1,1). Tốc độ TP tăng nhanh hơn tốc độ của FP.
Đường cong ROC này có AUC từ 0,5 đến 1,0, có nghĩa là đường cong này xếp hạng một ví dụ dương tính ngẫu nhiên cao hơn một ví dụ phủ định ngẫu nhiên hơn 50% thời gian. Các giá trị AUC phân loại nhị phân trong thực tế thường thuộc phạm vi này.
Đường cong ROC uốn cong sang phải và lên từ (0,0) đến (1,1). Tốc độ FP tăng nhanh hơn
           tốc độ TP.
Đường cong ROC này có AUC từ 0 đến 0,5, có nghĩa là đường cong này xếp hạng một ví dụ dương tính ngẫu nhiên cao hơn một ví dụ phủ định ngẫu nhiên dưới 50% thời gian. Mô hình tương ứng thực sự hoạt động kém hơn suy đoán ngẫu nhiên! Nếu bạn thấy đường cong ROC như vậy, thì đó có thể là dấu hiệu cho thấy có dữ liệu của bạn bị lỗi.

Dự đoán AUC và Thay đổi tỷ lệ

Hãy khám phá các lựa chọn bên dưới.

Thao tác này sẽ nhân tất cả số liệu dự đoán của một mô hình nhất định với 2,0 (ví dụ như nếu mô hình này dự đoán là 0,4, rồi nhân với 2,0 để có được kết quả dự đoán là 0,8), thì hiệu suất của mô hình sẽ được đo lường bằng AUC?
Sẽ không có thay đổi nào. AUC chỉ quan tâm đến điểm số dự đoán tương đối.
Có, AUC dựa trên các thông tin dự đoán tương đối, vì vậy mọi biến đổi của thông tin dự đoán giữ nguyên thứ hạng tương đối đều không ảnh hưởng đến AUC. Điều này rõ ràng không đúng cho các chỉ số khác như lỗi bình phương, mất nhật ký hoặc thiên vị dự đoán (sẽ thảo luận sau).
Điều đó sẽ làm cho AUC trở nên tệ, vì giá trị dự đoán hiện đã tắt.
Điều thú vị là mặc dù các giá trị dự đoán là khác nhau (và có thể xa hơn sự thật), nhưng khi nhân tất cả giá trị đó với 2,0, thì bạn sẽ vẫn giữ nguyên thứ tự tương đối của các giá trị dự đoán. Vì AUC chỉ quan tâm đến thứ hạng tương đối, nên nó không bị ảnh hưởng bởi bất kỳ quy mô dự đoán đơn giản nào.
Cách này sẽ giúp AUC tốt hơn vì các giá trị dự đoán đều ở xa hơn.
Mức độ lan truyền giữa các lần dự đoán không thực sự ảnh hưởng đến AUC. Ngay cả điểm số dự đoán cho một kết quả dương tính thực tế được vẽ ngẫu nhiên cũng chỉ là một giá trị nhỏ hơn một số âm tính ngẫu nhiên, thì sẽ được tính là một thành công góp phần tạo nên điểm số AUC tổng thể.