Klasifikasi: ROC dan ABK

Bagian sebelumnya menyajikan kumpulan metrik model, yang semuanya dihitung dengan nilai minimum klasifikasi tunggal. Tetapi jika Anda ingin mengevaluasi model di semua batas yang memungkinkan, Anda memerlukan alat yang berbeda.

Kurva karakteristik operasi-penerima (ROC)

Kurva KOP adalah representasi visual dari performa model di semua nilai minimum. Versi panjang dari nama, karakteristik operasi penerima, adalah warisan dari deteksi radar PDII.

Kurva KOP digambar dengan menghitung rasio positif benar (TPR) dan rasio positif palsu (FPR) di setiap batas yang memungkinkan (dalam praktiknya, dengan interval yang dipilih), lalu membuat grafik TPR di atas FPR. Model yang sempurna, yang pada beberapa ambang batas memiliki TPR 1,0 dan FPR 0,0, dapat direpresentasikan oleh titik di (0, 1) jika semua ambang batas lainnya diabaikan, atau dengan yang berikut:

Gambar 1. Grafik TPR (sumbu y) terhadap FPR (sumbu x) yang menunjukkan
            menunjukkan performa model yang sempurna: garis dari (0,1) sampai (1,1).
Gambar 1. ROC dan ABK dari model hipotetis sempurna.

Area di bawah kurva (AUC)

Area di bawah kurva ROC (AUC) mewakili probabilitas bahwa model, jika diberi contoh positif dan negatif yang dipilih secara acak, akan memberi peringkat positif lebih tinggi daripada negatif.

Model yang tepat di atas, yang berisi persegi dengan sisi panjang 1, memiliki area di bawah kurva (AUC) 1,0. Ini berarti ada probabilitas 100% bahwa model akan memberi peringkat dengan benar pada contoh positif yang dipilih acak lebih tinggi daripada contoh negatif yang dipilih secara acak. Dengan kata lain, melihat penyebaran titik data di bawah ini, ABK memberikan probabilitas bahwa model akan menempatkan persegi yang dipilih secara acak di sebelah kanan lingkaran yang dipilih secara acak, terlepas dari di mana nilai minimum ditetapkan.

Baris data widget tanpa penggeser

Dalam istilah yang lebih konkret, pengklasifikasi spam dengan AUC 1,0 selalu menugaskan email spam acak dengan probabilitas yang lebih tinggi untuk spam daripada email sah yang acak. Klasifikasi aktual dari masing-masing email bergantung pada ambang batas yang Anda pilih.

Untuk pengklasifikasi biner, model yang melakukan tebakan acak atau koin flip memiliki ROC yang merupakan garis diagonal dari (0,0) ke (1,1). ABK adalah 0,5, mewakili 50% probabilitas untuk benar memberi peringkat positif acak dan contoh negatif.

Dalam contoh pengklasifikasi spam, pengklasifikasi spam dengan AUC 0,5 menetapkan email spam acak dengan peluang lebih tinggi untuk menjadi spam daripada email acak email yang sah hanya setengahnya.

Gambar 2. Grafik TPR (sumbu y) terhadap FPR (sumbu x) yang menunjukkan
            kinerja tebakan 50-50 acak: garis diagonal dari (0,0)
            menjadi (1,1).
Gambar 2. ROC dan ABK dari tebakan yang benar-benar acak.

(Opsional, lanjutan) Kurva perolehan presisi

ABK dan ROC berfungsi dengan baik untuk membandingkan model ketika set data kurang lebih seimbang di antara kelas. Saat set data tidak seimbang, presisi-recall kurva (PRC) dan area di bawah kurva tersebut dapat menawarkan perbandingan visualisasi performa model. Kurva perolehan presisi dibuat oleh presisi pemetaan pada sumbu y dan perolehan pada sumbu x di semua minimum.

Contoh kurva presisi-perolehan dengan kurva cembung ke bawah dari (0,1)
            menjadi (1,0)

AUC dan ROC untuk memilih model dan ambang batas

ABK adalah alat ukur yang berguna untuk membandingkan kinerja dua model yang berbeda, selama set data kurang lebih seimbang. (Lihat Kurva presisi-recall, di atas, untuk {i>dataset<i} yang tidak seimbang.) Model dengan area yang lebih luas umumnya kurva yang lebih baik.

Gambar 3.a. Grafik ROC/AUC dari model dengan AUC=0,65. Gambar 3.b. Grafik ROC/AUC dari model dengan AUC=0,93.
Gambar 3. ROC dan ABK dari dua model hipotesis. Kurva di kanan, dengan ABK yang lebih besar, mewakili model yang lebih baik.

Titik-titik pada kurva ROC yang paling dekat dengan (0,1) mewakili rentang nilai nilai minimum berperforma terbaik untuk model tertentu. Seperti yang dibahas dalam Batas, Matriks konfusi dan Pilihan metrik dan konsekuensi nilai minimum yang Anda pilih bergantung pada metrik mana yang paling penting kasus penggunaan yang spesifik. Perhatikan titik A, B, dan C pada berikut ini diagram, masing-masing mewakili ambang batas:

Gambar 4. Kurva KOP dari AUC=0,84 yang menunjukkan tiga titik pada
            bagian cembung dari kurva yang terdekat dengan (0,1) berlabel A, B, C secara berurutan.
Gambar 4. Tiga titik berlabel yang mewakili nilai minimum.

Jika positif palsu (alarm palsu) sangat mahal, mungkin masuk akal untuk pilih ambang batas yang memberikan FPR lebih rendah, seperti yang ada di titik A, meskipun TPR akan berkurang. Sebaliknya, jika positif palsu (PP) bernilai murah dan negatif palsu (NP) (positif benar yang terlewat) sangat mahal, nilai minimum untuk titik C, memaksimalkan TPR, mungkin akan lebih baik. Jika biayanya kurang lebih setara, titik B dapat memberikan keseimbangan terbaik antara TPR dan FPR.

Berikut adalah kurva ROC untuk data yang telah kita lihat sebelumnya:

Latihan: Memeriksa pemahaman Anda

Dalam praktiknya, kurva ROC jauh lebih jarang dibandingkan ilustrasi yang disebutkan di atas. Manakah dari model berikut, yang diwakili oleh kurva ROC-nya dan AUC, memiliki kinerja terbaik?
Kurva ROC yang melengkung ke atas kemudian ke kanan dari (0,0) ke
           (1,1). Kurva memiliki AUC 0,77.
Model ini memiliki ABK tertinggi, yang sesuai dengan tingkat tinggi.
Kurva ROC yang kira-kira garis lurus dari (0,0) ke
           (1,1), dengan beberapa zig-zag. Kurva tersebut memiliki AUC 0,508.
Kurva ROC yang zig-zag ke atas dan ke kanan dari (0,0) hingga (1,1).
           Kurva tersebut memiliki AUC 0,623.
Kurva KOP yang melengkung ke kanan lalu ke atas dari
                (0,0) hingga (1,1). Kurva tersebut memiliki AUC 0,31.
Manakah dari model berikut yang berperforma lebih buruk daripada peluang?
Kurva KOP yang melengkung ke kanan lalu ke atas dari
                (0,0) hingga (1,1). Kurva tersebut memiliki AUC 0,32.
Model ini memiliki AUC di bawah 0,5, yang berarti performanya lebih buruk daripada kebetulan.
Kurva ROC yang 
kira-kira garis lurus dari
                     (0,0) sampai (1,1), dengan sedikit zig-zag. Kurva memiliki
                     AUC 0,508.
Performa model ini sedikit lebih baik daripada peluang.
Kurva ROC yang merupakan garis lurus diagonal dari
                (0,0) hingga (1,1). Kurva tersebut memiliki AUC 0,5.
Performa model ini sama seperti peluang.
Kurva ROC yang terdiri dari dua garis tegak lurus: garis vertikal
      garis dari (0,0) ke (0,1) dan garis horizontal dari (0,1) ke (1,1).
      Kurva ini memiliki AUC 1,0.
Ini adalah pengklasifikasi hipotetis sempurna.

(Opsional, lanjutan) Pertanyaan bonus

Manakah dari perubahan berikut yang dapat dilakukan untuk mencegah kemungkinan terjadinya masalah di pertanyaan sebelumnya untuk membuatnya berperforma lebih baik daripada peluang?
Balik prediksi, sehingga prediksi 1 menjadi 0, dan prediksi 0 menjadi 1.
Jika pengklasifikasi biner dapat menempatkan contoh-contoh dengan andal kelas yang salah lebih sering daripada kebetulan, mengganti label kelas langsung membuat prediksinya lebih baik daripada kebetulan tanpa harus melatih ulang model.
Setel agar selalu memprediksi kelas negatif.
Tindakan ini mungkin meningkatkan atau tidak meningkatkan performa di atas peluang. Selain itu, sebagai yang dibahas di bagian Akurasi, ini bukan model yang berguna.
Setel agar selalu memprediksi class positif.
Tindakan ini mungkin meningkatkan atau tidak meningkatkan performa di atas peluang. Selain itu, sebagai yang dibahas di bagian Akurasi, ini bukan model yang berguna.

Bayangkan situasi di mana lebih baik membiarkan beberapa spam mencapai {i>inbox<i} dibandingkan mengirim email yang penting untuk bisnis ke folder spam. Anda sudah telah melatih pengklasifikasi spam untuk situasi ini di mana kelas positif spam dan kelas negatifnya bukan spam. Manakah dari poin-poin berikut ini apakah menggunakan kurva ROC untuk pengklasifikasi Anda?

Kurva KOP dari AUC=0,84 yang menunjukkan tiga titik pada bagian cembung dari
       kurva yang mendekati (0,1). Titik A berada di sekitar
       (0,25, 0,75). Titik B berada di sekitar (0,30, 0,90), dan
       yang memaksimalkan TPR, sekaligus meminimalkan FPR. Poin
       C berada di sekitar (0,4, 0,95).
Titik A
Dalam kasus penggunaan ini, lebih baik meminimalkan positif palsu, bahkan jika positif benar juga menurun.
Titik B
Nilai minimum ini menyeimbangkan positif benar dan positif palsu.
Titik C
Nilai minimum ini memaksimalkan positif benar (menandai lebih banyak spam) dengan mengorbankan positif palsu (PP) yang lebih banyak (lebih banyak email sah yang ditandai sebagai spam).