Positif dan negatif benar dan salah digunakan untuk menghitung beberapa metrik untuk mengevaluasi model. Metrik evaluasi mana yang paling bermakna tergantung pada model dan tugas tertentu, serta biaya kesalahan klasifikasi yang berbeda, dan apakah {i>dataset<i} seimbang atau tidak seimbang.
Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan berubah saat nilai minimum berubah. Sangat sering, pengguna menyetel nilai minimum untuk mengoptimalkan salah satu metrik tersebut.
Akurasi
Akurasi adalah proporsi dari semua klasifikasi yang benar, baik positif maupun negatif. Penting didefinisikan secara matematis sebagai:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Dalam contoh klasifikasi spam, akurasi mengukur fraksi dari semua email diklasifikasikan dengan benar.
Model yang sempurna akan memiliki positif palsu nol dan negatif palsu nol, serta oleh karena itu akurasinya 1,0, atau 100%.
Karena model ini menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), dengan pemberian dengan jumlah contoh yang sama di kedua class tersebut, akurasi bisa berfungsi sebagai ukuran umum untuk kualitas model. Karena alasan ini, sering kali metrik evaluasi default yang digunakan untuk model umum atau yang tidak ditentukan melaksanakan tugas umum atau tidak ditentukan.
Namun, ketika {i>dataset <i}tidak seimbang, atau di mana satu jenis kesalahan (FN atau FP) lebih mahal daripada yang lain, yaitu dalam kebanyakan aplikasi di dunia nyata, akan lebih baik untuk mengoptimalkan salah satu metrik lain sebagai gantinya.
Untuk set data yang sangat tidak seimbang, di mana satu class sangat jarang muncul, misalnya 1% dari model yang memprediksi negatif 100% dari waktu ke waktu akan mendapatkan skor 99% yang akurat, meskipun tidak berguna.
Recall, atau rasio positif benar
Rasio positif benar (TPR), atau proporsi semua positif aktual yang diklasifikasikan dengan benar sebagai positif, juga dikenal sebagai penarikan.
Recall secara matematis didefinisikan sebagai:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Negatif palsu adalah positif aktual yang salah diklasifikasikan sebagai negatif, yang adalah mengapa nilai itu muncul di penyebut. Dalam contoh klasifikasi spam, {i>recall<i} mengukur sebagian email spam yang diklasifikasikan dengan benar sebagai spam. Inilah sebabnya nama lain untuk recall adalah probabilitas deteksi: nama ini menjawab pertanyaan "Berapa bagian email spam yang terdeteksi model?"
Model hipotetis sempurna akan memiliki nol negatif palsu, sehingga perolehan (TPR) sebesar 1, 0, yakni tingkat deteksi 100%.
Dalam {i>dataset<i} yang tidak seimbang di mana jumlah positif aktual sangat, rendah, misalnya total 1-2 contoh, ingatan kurang berarti dan kurang berguna sebagai metrik.
Rasio positif palsu
Rasio positif palsu (FPR) adalah proporsi semua negatif aktual yang diklasifikasikan dengan salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Penting didefinisikan secara matematis sebagai:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, itulah sebabnya muncul di penyebut. Dalam contoh klasifikasi spam, FPR mengukur sebagian email sah yang salah diklasifikasikan sebagai spam atau tingkat alarm palsu model.
Model yang sempurna akan memiliki positif palsu nol dan karenanya FPR 0,0, yaitu, tingkat alarm palsu 0%.
Dalam {i>dataset<i} yang tidak seimbang di mana jumlah negatif aktual sangat, rendah, misalnya total 1-2 contoh, FPR kurang berarti dan kurang berguna sebagai metrik.
Presisi
Presisi adalah proporsi dari semua klasifikasi positif model yang sebenarnya positif. Hal ini secara matematis didefinisikan sebagai:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Dalam contoh klasifikasi spam, presisi mengukur fraksi email diklasifikasikan sebagai spam yang sebenarnya merupakan spam.
Model hipotesis sempurna akan memiliki positif palsu (PP) nol, sehingga dengan presisi sebesar 1,0.
Dalam {i>dataset<i} yang tidak seimbang di mana jumlah positif aktual sangat, rendah, misalnya total 1-2 contoh, presisi kurang berarti dan kurang berguna sebagai metrik.
Presisi meningkat saat positif palsu berkurang, sementara perolehan meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, batas klasifikasi cenderung mengurangi jumlah positif palsu (PP) dan meningkatkan jumlah negatif palsu, sedangkan menurunkan ambang batas memiliki efek yang berlawanan. Akibatnya, presisi dan perolehan sering menunjukkan hasil sebaliknya hubungan baik, di mana memperbaiki salah satunya akan memperburuk yang lain.
Cobalah sendiri:
Apa yang dimaksud dengan NaN dalam metrik?
NaN, atau "bukan angka", muncul ketika membagi dengan 0, yang dapat terjadi dengan salah satu metrik ini. Misalnya, jika TP dan FP bernilai 0, rumus untuk presisi memiliki 0 di penyebut, sehingga NaN. Meskipun dalam beberapa kasus, NaN dapat menunjukkan kinerja yang sempurna dan dapat digantikan dengan skor 1,0, hal itu juga dapat berasal dari model yang tidak berguna. Model yang tidak pernah memprediksi positif, misalnya, akan memiliki 0 TP dan 0 FP, sehingga perhitungan presisinya akan menghasilkan NaN.
Pilihan metrik dan konsekuensi
Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan pemilihan ambang batas tergantung pada biaya, manfaat, dan risiko masalah spesifik. Dalam contoh klasifikasi {i>spam<i}, sering kali membuat masuk akal untuk memprioritaskan perolehan, menangkap semua email spam, atau presisi, mencoba memastikan bahwa email berlabel spam benar-benar spam, atau beberapa keseimbangan di antara keduanya, di atas tingkat akurasi minimum.
Metrik | Panduan |
---|---|
Akurasi | Gunakan sebagai indikator kasar model progres/konvergensi pelatihan untuk set data yang seimbang. Untuk performa model, gunakan hanya bersama metrik lainnya. Hindari set data yang tidak seimbang. Sebaiknya gunakan metrik lain. |
Recall (Rasio positif benar) |
Gunakan jika negatif palsu lebih banyak mahal daripada positif palsu. |
Rasio positif palsu | Gunakan bila positif palsu (PP) lebih mahal daripada negatif palsu. |
Presisi | Gunakan saat sangat penting bagi membuat prediksi positif akurat. |
(Opsional, lanjutan) Skor F1
Skor F1 adalah rerata harmonik ( rata-rata) presisi dan perolehan.
Secara matematis, nilai tersebut diberikan oleh:
Metrik ini menyeimbangkan pentingnya presisi dan perolehan, serta lebih baik daripada akurasi untuk {i>dataset<i} kelas tidak seimbang. Saat presisi dan ingat keduanya memiliki skor sempurna 1.0, F1 juga akan memiliki skor sempurna. sebesar 1,0. Secara lebih luas, ketika nilai presisi dan perolehan mendekati, F1 akan mendekati nilainya. Ketika presisi dan perolehan berjauhan, F1 akan serupa dengan metrik mana pun yang lebih buruk.