Nilai minimum dan matriks kebingungan

Katakanlah Anda memiliki model regresi logistik untuk mendeteksi email spam yang memprediksi nilai antara 0 dan 1, yang mewakili probabilitas bahwa nilai email adalah spam. Prediksi 0,50 menandakan kemungkinan 50% bahwa email tersebut spam, prediksi 0,75 menandakan 75% kemungkinan bahwa email tersebut spam, dan seterusnya.

Anda ingin menerapkan model ini dalam aplikasi email untuk memfilter spam folder email terpisah. Untuk melakukannya, Anda perlu mengonversi kode sumber output numerik (mis., 0.75) ke dalam salah satu dari dua kategori: "spam" atau "tidak spam."

Untuk melakukan konversi ini, pilih probabilitas nilai minimum, yang disebut nilai minimum klasifikasi. Contoh dengan probabilitas di atas nilai minimum kemudian akan ditetapkan ke kelas positif, class yang sedang Anda uji (di sini, spam). Contoh dengan nilai yang lebih rendah probabilitas ditetapkan ke kelas negatif, class alternatif (di sini, not spam).

Klik di sini untuk mengetahui detail selengkapnya tentang batas klasifikasi

Anda mungkin bertanya-tanya: apa yang terjadi jika skor prediksi sama dengan batas klasifikasi (misalnya, skor 0,5 di mana batas klasifikasinya juga 0,5)? Penanganan untuk kasus ini tergantung pada implementasi tertentu yang dipilih untuk klasifikasi model transformer. Misalnya, kursus Keras library memprediksi kelas negatif jika skor dan ambang batas sama, tetapi alat/kerangka kerja lain mungkin menangani kasus ini secara berbeda.

Sebagai contoh, misalkan model memberi skor 0, 99 pada satu email email itu memiliki peluang 99% untuk menjadi spam, dan email lainnya 0,51, dengan predikat bahwa data tersebut memiliki peluang 51% untuk menjadi spam. Jika Anda menyetel batas klasifikasi menjadi 0,5, model akan mengklasifikasikan kedua email sebagai spam. Jika Anda menetapkan ambang batas ke 0,95, hanya email dengan skor 0,99 yang akan diklasifikasikan sebagai spam.

Meskipun 0,5 mungkin tampak seperti ambang batas intuitif, bukan ide yang baik jika biaya untuk satu jenis klasifikasi yang salah lebih besar daripada yang lain, atau jika kelas tidak seimbang. Jika hanya 0,01% email yang merupakan spam, atau jika salah kirim email yang sah lebih buruk daripada membiarkan spam masuk ke kotak masuk, memberi label pada apa pun yang oleh model dianggap setidaknya 50% kemungkinan sebagai spam karena spam memberikan hasil yang tidak diinginkan.

Confusion matrix

Skor probabilitas bukan kenyataan, atau kebenaran dasar. Ada empat kemungkinan hasil untuk setiap output dari pengklasifikasi biner. Untuk contoh pengklasifikasi spam, jika Anda memaparkan kebenaran dasar sebagai kolom dan prediksi model sebagai baris, tabel berikut ini, disebut matriks konfusi, adalah hasil:

Positif aktual Negatif aktual
Prediksi positif Positif benar (TP): Spam email diklasifikasikan dengan benar sebagai email spam. Ini adalah pesan spam terkirim ke folder spam secara otomatis. Positif palsu (FP): Email bukan spam yang salah diklasifikasikan sebagai spam. Ini adalah email yang sah yang dan masuk ke folder spam.
Prediksi negatif Salah negatif (FN): Email spam yang salah diklasifikasikan sebagai bukan spam. Ini adalah spam email yang tidak terdeteksi oleh filter {i>spam<i} dan masuk ke kotak masuk Anda. Negatif benar (NB): A email bukan spam dengan benar diklasifikasikan sebagai bukan-spam. Ini adalah email sah yang dikirim langsung ke {i>inbox<i}.

Perhatikan bahwa total di setiap baris memberikan semua positif yang diprediksi (TP + FP) dan semua prediksi negatif (FN + TN), terlepas dari validitasnya. Total dalam setiap sementara itu, menghasilkan nilai positif riil (TP + FN) dan nilai negatif riil (FP + TN) terlepas dari klasifikasi model.

Ketika total positif aktual tidak mendekati jumlah total negatif, {i>dataset <i}tersebut tidak seimbang. Sebuah instance kumpulan data yang tidak seimbang mungkin berupa kumpulan ribuan foto awan, di mana jenis awan langka yang Anda minati, misalnya, awan volutus, hanya muncul beberapa kali.