Bagian sebelumnya menyajikan kumpulan metrik model, yang semuanya dihitung dengan nilai minimum klasifikasi tunggal. Tetapi jika Anda ingin mengevaluasi model di semua batas yang memungkinkan, Anda memerlukan alat yang berbeda.
Kurva karakteristik operasi-penerima (ROC)
Kurva KOP adalah representasi visual dari performa model di semua nilai minimum. Versi panjang dari nama, karakteristik operasi penerima, adalah warisan dari deteksi radar PDII.
Kurva KOP digambar dengan menghitung rasio positif benar (TPR) dan rasio positif palsu (FPR) di setiap batas yang memungkinkan (dalam praktiknya, dengan interval yang dipilih), lalu membuat grafik TPR di atas FPR. Model yang sempurna, yang pada beberapa ambang batas memiliki TPR 1,0 dan FPR 0,0, dapat direpresentasikan oleh titik di (0, 1) jika semua ambang batas lainnya diabaikan, atau dengan yang berikut:
Area di bawah kurva (AUC)
Area di bawah kurva ROC (AUC) mewakili probabilitas bahwa model, jika diberi contoh positif dan negatif yang dipilih secara acak, akan memberi peringkat positif lebih tinggi daripada negatif.
Model yang tepat di atas, yang berisi persegi dengan sisi panjang 1, memiliki area di bawah kurva (AUC) 1,0. Ini berarti ada probabilitas 100% bahwa model akan memberi peringkat dengan benar pada contoh positif yang dipilih acak lebih tinggi daripada contoh negatif yang dipilih secara acak. Dengan kata lain, melihat penyebaran titik data di bawah ini, ABK memberikan probabilitas bahwa model akan menempatkan persegi yang dipilih secara acak di sebelah kanan lingkaran yang dipilih secara acak, terlepas dari di mana nilai minimum ditetapkan.
Dalam istilah yang lebih konkret, pengklasifikasi spam dengan AUC 1,0 selalu menugaskan email spam acak dengan probabilitas yang lebih tinggi untuk spam daripada email sah yang acak. Klasifikasi aktual dari masing-masing email bergantung pada ambang batas yang Anda pilih.
Untuk pengklasifikasi biner, model yang melakukan tebakan acak atau koin flip memiliki ROC yang merupakan garis diagonal dari (0,0) ke (1,1). ABK adalah 0,5, mewakili 50% probabilitas untuk benar memberi peringkat positif acak dan contoh negatif.
Dalam contoh pengklasifikasi spam, pengklasifikasi spam dengan AUC 0,5 menetapkan email spam acak dengan peluang lebih tinggi untuk menjadi spam daripada email acak email yang sah hanya setengahnya.
(Opsional, lanjutan) Kurva perolehan presisi
ABK dan ROC berfungsi dengan baik untuk membandingkan model ketika set data kurang lebih seimbang di antara kelas. Saat set data tidak seimbang, presisi-recall kurva (PRC) dan area di bawah kurva tersebut dapat menawarkan perbandingan visualisasi performa model. Kurva perolehan presisi dibuat oleh presisi pemetaan pada sumbu y dan perolehan pada sumbu x di semua minimum.
AUC dan ROC untuk memilih model dan ambang batas
ABK adalah alat ukur yang berguna untuk membandingkan kinerja dua model yang berbeda, selama set data kurang lebih seimbang. (Lihat Kurva presisi-recall, di atas, untuk {i>dataset<i} yang tidak seimbang.) Model dengan area yang lebih luas umumnya kurva yang lebih baik.
Titik-titik pada kurva ROC yang paling dekat dengan (0,1) mewakili rentang nilai nilai minimum berperforma terbaik untuk model tertentu. Seperti yang dibahas dalam Batas, Matriks konfusi dan Pilihan metrik dan konsekuensi nilai minimum yang Anda pilih bergantung pada metrik mana yang paling penting kasus penggunaan yang spesifik. Perhatikan titik A, B, dan C pada berikut ini diagram, masing-masing mewakili ambang batas:
Jika positif palsu (alarm palsu) sangat mahal, mungkin masuk akal untuk pilih ambang batas yang memberikan FPR lebih rendah, seperti yang ada di titik A, meskipun TPR akan berkurang. Sebaliknya, jika positif palsu (PP) bernilai murah dan negatif palsu (NP) (positif benar yang terlewat) sangat mahal, nilai minimum untuk titik C, memaksimalkan TPR, mungkin akan lebih baik. Jika biayanya kurang lebih setara, titik B dapat memberikan keseimbangan terbaik antara TPR dan FPR.
Berikut adalah kurva ROC untuk data yang telah kita lihat sebelumnya:
Latihan: Memeriksa pemahaman Anda
(Opsional, lanjutan) Pertanyaan bonus
Bayangkan situasi di mana lebih baik membiarkan beberapa spam mencapai {i>inbox<i} dibandingkan mengirim email yang penting untuk bisnis ke folder spam. Anda sudah telah melatih pengklasifikasi spam untuk situasi ini di mana kelas positif spam dan kelas negatifnya bukan spam. Manakah dari poin-poin berikut ini apakah menggunakan kurva ROC untuk pengklasifikasi Anda?