Positif dan negatif benar serta palsu digunakan untuk menghitung beberapa metrik yang berguna untuk mengevaluasi model. Metrik evaluasi mana yang paling bermakna bergantung pada model tertentu dan tugas tertentu, biaya dari berbagai kesalahan klasifikasi, dan apakah set data seimbang atau tidak seimbang.
Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan berubah saat nilai minimum berubah. Sering kali, pengguna menyesuaikan nilai minimum untuk mengoptimalkan salah satu metrik ini.
Akurasi
Akurasi adalah proporsi dari semua klasifikasi yang benar, baik positif maupun negatif. Secara matematis, ini didefinisikan sebagai:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Dalam contoh klasifikasi spam, akurasi mengukur fraksi dari semua email yang diklasifikasikan dengan benar.
Model yang sempurna tidak akan memiliki positif palsu dan negatif palsu, sehingga akurasinya 1,0, atau 100%.
Karena menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), yang diberi set data yang seimbang, dengan jumlah contoh yang serupa di kedua class, akurasi dapat berfungsi sebagai ukuran kasar kualitas model. Karena alasan ini, metrik ini sering kali menjadi metrik evaluasi default yang digunakan untuk model generik atau tidak ditentukan yang melakukan tugas generik atau tidak ditentukan.
Namun, jika set data tidak seimbang, atau jika satu jenis kesalahan (FN atau FP) lebih mahal daripada kesalahan lain, seperti yang terjadi di sebagian besar aplikasi di dunia nyata, sebaiknya optimalkan untuk salah satu metrik lainnya.
Untuk set data yang sangat tidak seimbang, dengan satu class yang sangat jarang muncul, misalnya 1% dari waktu, model yang memprediksi negatif 100% dari waktu akan mendapatkan skor 99% akurasi, meskipun tidak berguna.
Perolehan, atau rasio positif benar
Rasio positif benar (TPR), atau proporsi semua positif sebenarnya yang dikaitkan dengan benar sebagai positif, juga dikenal sebagai recall.
Recall secara matematis didefinisikan sebagai:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Negatif palsu adalah positif sebenarnya yang salah diklasifikasikan sebagai negatif, itulah sebabnya nilai ini muncul di penyebut. Dalam contoh klasifikasi spam, recall mengukur fraksi email spam yang diklasifikasikan dengan benar sebagai spam. Inilah sebabnya nama lain untuk recall adalah probabilitas deteksi: metrik ini menjawab pertanyaan "Berapa fraksi email spam yang terdeteksi oleh model ini?"
Model hipotesis sempurna akan memiliki negatif palsu nol, sehingga perolehan (TPR) sebesar 1,0, yang artinya, tingkat deteksi 100%.
Dalam set data tidak seimbang dengan jumlah positif aktual sangat rendah, misalnya total 1-2 contoh, perolehan kurang berarti dan kurang berguna sebagai metrik.
Rasio positif palsu
Rasio positif palsu (FPR) adalah proporsi dari semua negatif sebenarnya yang diklasifikasikan secara salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Secara matematis, ini didefinisikan sebagai:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, dan karena itu muncul dalam penyebut. Dalam contoh klasifikasi spam, FPR mengukur fraksi email yang sah yang salah diklasifikasikan sebagai spam, atau rasio alarm palsu model.
Model yang sempurna tidak akan memiliki positif palsu sehingga FPR-nya adalah 0,0, yang berarti, rasio alarm palsu 0%.
Dalam set data yang tidak seimbang dengan jumlah negatif sebenarnya sangat rendah, misalnya 1-2 contoh secara total, FPR kurang bermakna dan kurang berguna sebagai metrik.
Presisi
Presisi adalah proporsi dari semua klasifikasi positif model yang benar-benar positif. Hal ini secara matematis didefinisikan sebagai:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Dalam contoh klasifikasi spam, presisi mengukur fraksi email yang diklasifikasikan sebagai spam yang sebenarnya adalah spam.
Model hipotesis sempurna akan memiliki positif palsu nol, sehingga presisinya sebesar 1,0.
Dalam set data yang tidak seimbang dengan jumlah positif sebenarnya sangat rendah, misalnya 1-2 contoh secara total, presisi kurang bermakna dan kurang berguna sebagai metrik.
Presisi meningkat seiring dengan penurunan positif palsu, sedangkan recall meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, meningkatkan nilai minimum klasifikasi cenderung mengurangi jumlah positif palsu dan meningkatkan jumlah negatif palsu, sedangkan menurunkan nilai minimum memiliki efek sebaliknya. Akibatnya, presisi dan recall sering kali menunjukkan hubungan terbalik, dengan meningkatkan salah satunya akan memperburuk yang lain.
Cobalah sendiri:
Apa arti NaN dalam metrik?
NaN, atau "bukan angka", muncul saat membagi dengan 0, yang dapat terjadi dengan salah satu metrik tersebut. Misalnya, jika TP dan FP sama-sama 0, formula presisi memiliki 0 di denominator, sehingga menghasilkan NaN. Meskipun dalam beberapa kasus NaN dapat menunjukkan performa sempurna dan dapat diganti dengan skor 1,0, NaN juga dapat berasal dari model yang praktis tidak berguna. Misalnya, model yang tidak pernah memprediksi positif akan memiliki 0 TP dan 0 FP sehingga penghitungan presisinya akan menghasilkan NaN.
Pilihan metrik dan kompromi
Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan memilih nilai minimum bergantung pada biaya, manfaat, dan risiko masalah tertentu. Dalam contoh klasifikasi spam, sering kali lebih baik memprioritaskan recall, yaitu menangkap semua email spam, atau presisi, mencoba memastikan bahwa email berlabel spam memang spam, atau beberapa keseimbangan antara keduanya, di atas beberapa tingkat akurasi minimum.
Metrik | Panduan |
---|---|
Akurasi | Gunakan sebagai indikator kasar progres/konvergensi pelatihan model untuk set data yang seimbang. Untuk performa model, hanya gunakan dalam kombinasi dengan metrik lain. Hindari untuk set data yang tidak seimbang. Pertimbangkan untuk menggunakan metrik lain. |
Perolehan (Rasio positif benar) |
Gunakan jika negatif palsu lebih mahal daripada positif palsu. |
Rasio positif palsu | Gunakan jika positif palsu lebih mahal daripada negatif palsu. |
Presisi | Gunakan jika sangat penting bagi prediksi positif untuk akurat. |
(Opsional, lanjutan) Skor F1
Skor F1 adalah rata-rata harmonis (semacam rata-rata) presisi dan recall.
Secara matematis, nilai tersebut diberikan oleh:
Metrik ini menyeimbangkan pentingnya presisi dan perolehan, serta lebih baik daripada akurasi untuk set data kelas tidak seimbang. Jika presisi dan perolehan memiliki skor sempurna 1,0, F1 juga akan memiliki skor sempurna 1,0. Secara lebih luas, jika presisi dan recall memiliki nilai yang mendekati, F1 akan mendekati nilainya. Jika presisi dan perolehan sangat berbeda, F1 akan mirip dengan metrik yang lebih buruk.