Klasifikasi: Periksa Pemahaman Anda (ROC dan AUC)

ROC dan AUC

Pelajari opsi-opsi di bawah.

Manakah dari kurva ROC berikut yang menghasilkan nilai ABK yang lebih besar dari 0,5?
Kurva ROC dengan garis vertikal yang berjalan dari (0,0) ke (0,1), dan horizontal dari (0,1) ke (1,1). Rasio TP adalah 1,0 untuk semua rasio FP.

Ini adalah kurva ROC terbaik, karena kurva ini memberi peringkat semua positif di atas semua negatif. Versi ini memiliki AUC 1.0.

Dalam praktiknya, jika Anda memiliki "sempurna" pengklasifikasi dengan ABK 1,0, Anda seharusnya curiga, karena kemungkinan itu menunjukkan bug dalam model Anda. Misalnya, Anda mungkin memiliki overfit untuk data pelatihan, atau data label dapat direplikasi dalam salah satu fitur Anda.

Kurva ROC dengan garis horizontal dari (0,0) ke (1,0), dan garis vertikal dari (1,0) ke (1,1). Rasio FP-nya adalah 1,0 untuk semua rasio TP
Ini adalah kurva ROC terburuk yang mungkin terjadi; kurva ini memberi peringkat semua negatif di atas semua positif, dan memiliki AUC 0,0. Jika Anda membalik setiap prediksi (membalikkan negatif menjadi positif dan positif menjadi negatif), Anda sebenarnya akan memiliki pengklasifikasi yang sempurna.
Kurva ROC dengan satu garis diagonal yang berjalan dari (0,0) ke (1,1). Kecepatan TP dan FP meningkat secara linear pada rasio yang sama.
Kurva ROC ini memiliki ABK 0,5, yang berarti kurva tersebut memberikan urutan contoh positif acak yang lebih tinggi dibandingkan contoh negatif acak sebanyak 50% dari waktu. Dengan demikian, model klasifikasi yang sesuai pada dasarnya tidak berharga, karena kemampuan prediktifnya tidak lebih baik daripada tebakan acak.
Kurva ROC yang melengkung ke atas dan ke kanan dari (0,0) ke (1,1). Rasio TP meningkat
           pada tingkat yang lebih cepat daripada rasio FP.
Kurva ROC ini memiliki ABK antara 0,5 dan 1,0, yang berarti kurva tersebut memberikan urutan contoh positif acak yang lebih tinggi daripada contoh negatif acak yang lebih dari 50% dari waktu. Nilai AUC klasifikasi biner dunia nyata umumnya termasuk dalam rentang ini.
Kurva ROC yang melengkung ke kanan dan ke atas dari (0,0) ke (1,1). Rasio FP meningkat pada
           rasio yang lebih cepat daripada rasio TP.
Kurva ROC ini memiliki ABK antara 0 dan 0,5, yang berarti kurva tersebut memberikan urutan contoh positif acak yang lebih tinggi daripada contoh negatif acak yang kurang dari 50% waktu. Model yang sesuai sebenarnya berperforma lebih buruk daripada tebakan acak. Jika kurva ROC terlihat seperti ini, kemungkinan ada bug dalam data Anda.

Prediksi UC dan Penskalaan

Pelajari opsi-opsi di bawah.

Bagaimana mengalikan semua prediksi dari model tertentu dengan 2,0 (misalnya, jika model memprediksi 0,4, kita mengalikan dengan 2,0 untuk mendapatkan prediksi 0,8) akan mengubah performa model seperti yang diukur oleh AUC?
Tidak ada perubahan. ABK hanya memperhatikan skor prediksi relatif.
Ya, ABK didasarkan pada prediksi relatif, sehingga transformasi apa pun dari prediksi yang mempertahankan peringkat relatif tidak akan memengaruhi AUC. Hal ini jelas tidak berlaku untuk metrik lain seperti error kuadrat, kerugian log, atau bias prediksi (dibahas nanti).
Hal itu akan membuat ABK menjadi buruk, karena nilai prediksi kini jauh berbeda.
Cukup menarik, meskipun nilai prediksi berbeda (dan mungkin lebih jauh dari kebenaran), mengalikan semuanya dengan 2,0 akan menjaga urutan relatif nilai prediksi tetap sama. Karena ABK hanya memperhatikan peringkat relatif, hal ini tidak akan terpengaruh oleh penskalaan prediksi yang sederhana.
Ini akan membuat ABK menjadi lebih baik, karena semua nilai prediksi terpisah lebih jauh.
Jumlah penyebaran di antara prediksi sebenarnya tidak memengaruhi ABK. Bahkan skor prediksi untuk positif benar yang diambil secara acak hanyalah epsilon kecil yang lebih besar daripada negatif yang digambar secara acak, yang akan dihitung sebagai keberhasilan yang berkontribusi pada skor ABK secara keseluruhan.