Klasifikasi: Akurasi, perolehan, presisi, dan metrik terkait

Positif dan negatif benar serta palsu digunakan untuk menghitung beberapa metrik yang berguna untuk mengevaluasi model. Metrik evaluasi mana yang paling bermakna bergantung pada model tertentu dan tugas tertentu, biaya dari berbagai kesalahan klasifikasi, dan apakah set data seimbang atau tidak seimbang.

Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan berubah saat nilai minimum berubah. Sering kali, pengguna menyesuaikan nilai minimum untuk mengoptimalkan salah satu metrik ini.

Akurasi

Akurasi adalah proporsi dari semua klasifikasi yang benar, baik positif maupun negatif. Secara matematis, ini didefinisikan sebagai:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dalam contoh klasifikasi spam, akurasi mengukur fraksi dari semua email yang diklasifikasikan dengan benar.

Model yang sempurna tidak akan memiliki positif palsu dan negatif palsu, sehingga akurasinya 1,0, atau 100%.

Karena menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), yang diberi set data yang seimbang, dengan jumlah contoh yang serupa di kedua class, akurasi dapat berfungsi sebagai ukuran kasar kualitas model. Karena alasan ini, metrik ini sering kali menjadi metrik evaluasi default yang digunakan untuk model generik atau tidak ditentukan yang melakukan tugas generik atau tidak ditentukan.

Namun, jika set data tidak seimbang, atau jika satu jenis kesalahan (FN atau FP) lebih mahal daripada kesalahan lain, seperti yang terjadi di sebagian besar aplikasi di dunia nyata, sebaiknya optimalkan untuk salah satu metrik lainnya.

Untuk set data yang sangat tidak seimbang, dengan satu class yang sangat jarang muncul, misalnya 1% dari waktu, model yang memprediksi negatif 100% dari waktu akan mendapatkan skor 99% akurasi, meskipun tidak berguna.

Perolehan, atau rasio positif benar

Rasio positif benar (TPR), atau proporsi semua positif sebenarnya yang dikaitkan dengan benar sebagai positif, juga dikenal sebagai recall.

Recall secara matematis didefinisikan sebagai:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Negatif palsu adalah positif sebenarnya yang salah diklasifikasikan sebagai negatif, itulah sebabnya nilai ini muncul di penyebut. Dalam contoh klasifikasi spam, recall mengukur fraksi email spam yang diklasifikasikan dengan benar sebagai spam. Inilah sebabnya nama lain untuk recall adalah probabilitas deteksi: metrik ini menjawab pertanyaan "Berapa fraksi email spam yang terdeteksi oleh model ini?"

Model hipotesis sempurna akan memiliki negatif palsu nol, sehingga perolehan (TPR) sebesar 1,0, yang artinya, tingkat deteksi 100%.

Dalam set data tidak seimbang dengan jumlah positif aktual sangat rendah, misalnya total 1-2 contoh, perolehan kurang berarti dan kurang berguna sebagai metrik.

Rasio positif palsu

Rasio positif palsu (FPR) adalah proporsi dari semua negatif sebenarnya yang diklasifikasikan secara salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Secara matematis, ini didefinisikan sebagai:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, dan karena itu muncul dalam penyebut. Dalam contoh klasifikasi spam, FPR mengukur fraksi email yang sah yang salah diklasifikasikan sebagai spam, atau rasio alarm palsu model.

Model yang sempurna tidak akan memiliki positif palsu sehingga FPR-nya adalah 0,0, yang berarti, rasio alarm palsu 0%.

Dalam set data yang tidak seimbang dengan jumlah negatif sebenarnya sangat rendah, misalnya 1-2 contoh secara total, FPR kurang bermakna dan kurang berguna sebagai metrik.

Presisi

Presisi adalah proporsi dari semua klasifikasi positif model yang benar-benar positif. Hal ini secara matematis didefinisikan sebagai:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dalam contoh klasifikasi spam, presisi mengukur fraksi email yang diklasifikasikan sebagai spam yang sebenarnya adalah spam.

Model hipotesis sempurna akan memiliki positif palsu nol, sehingga presisinya sebesar 1,0.

Dalam set data yang tidak seimbang dengan jumlah positif sebenarnya sangat rendah, misalnya 1-2 contoh secara total, presisi kurang bermakna dan kurang berguna sebagai metrik.

Presisi meningkat seiring dengan penurunan positif palsu, sedangkan recall meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, meningkatkan nilai minimum klasifikasi cenderung mengurangi jumlah positif palsu dan meningkatkan jumlah negatif palsu, sedangkan menurunkan nilai minimum memiliki efek sebaliknya. Akibatnya, presisi dan recall sering kali menunjukkan hubungan terbalik, dengan meningkatkan salah satunya akan memperburuk yang lain.

Cobalah sendiri:

Apa arti NaN dalam metrik?

NaN, atau "bukan angka", muncul saat membagi dengan 0, yang dapat terjadi dengan salah satu metrik tersebut. Misalnya, jika TP dan FP sama-sama 0, formula presisi memiliki 0 di denominator, sehingga menghasilkan NaN. Meskipun dalam beberapa kasus NaN dapat menunjukkan performa sempurna dan dapat diganti dengan skor 1,0, NaN juga dapat berasal dari model yang praktis tidak berguna. Misalnya, model yang tidak pernah memprediksi positif akan memiliki 0 TP dan 0 FP sehingga penghitungan presisinya akan menghasilkan NaN.

Pilihan metrik dan kompromi

Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan memilih nilai minimum bergantung pada biaya, manfaat, dan risiko masalah tertentu. Dalam contoh klasifikasi spam, sering kali lebih baik memprioritaskan recall, yaitu menangkap semua email spam, atau presisi, mencoba memastikan bahwa email berlabel spam memang spam, atau beberapa keseimbangan antara keduanya, di atas beberapa tingkat akurasi minimum.

Metrik Panduan
Akurasi

Gunakan sebagai indikator kasar progres/konvergensi pelatihan model untuk set data yang seimbang.

Untuk performa model, hanya gunakan dalam kombinasi dengan metrik lain.

Hindari untuk set data yang tidak seimbang. Pertimbangkan untuk menggunakan metrik lain.

Perolehan
(Rasio positif benar)
Gunakan jika negatif palsu lebih mahal daripada positif palsu.
Rasio positif palsu Gunakan jika positif palsu lebih mahal daripada negatif palsu.
Presisi Gunakan jika sangat penting bagi prediksi positif untuk akurat.

(Opsional, lanjutan) Skor F1

Skor F1 adalah rata-rata harmonis (semacam rata-rata) presisi dan recall.

Secara matematis, nilai tersebut diberikan oleh:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Metrik ini menyeimbangkan pentingnya presisi dan perolehan, serta lebih baik daripada akurasi untuk set data kelas tidak seimbang. Jika presisi dan perolehan memiliki skor sempurna 1,0, F1 juga akan memiliki skor sempurna 1,0. Secara lebih luas, jika presisi dan recall memiliki nilai yang mendekati, F1 akan mendekati nilainya. Jika presisi dan perolehan sangat berbeda, F1 akan mirip dengan metrik yang lebih buruk.

Latihan: Memeriksa pemahaman Anda

Sebuah model menghasilkan 5 TP, 6 TN, 3 FP, dan 2 FN. Hitung recall.
0,714
Recall dihitung sebagai \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Perolehan mempertimbangkan semua positif yang sebenarnya, bukan semua klasifikasi yang benar. Rumus untuk recall adalah \(\frac{TP}{TP+FN}\).
0,625
Perolehan mempertimbangkan semua positif sebenarnya, bukan semua klasifikasi positif. Rumus untuk recall adalah \(\frac{TP}{TP+FN}\)
Sebuah model menghasilkan 3 TP, 4 TN, 2 FP, dan 1 FN. Hitung presisi.
0,6
Presisi dihitung sebagai \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
Presisi mempertimbangkan semua klasifikasi positif, bukan semua positif sebenarnya. Formula untuk presisi adalah \(\frac{TP}{TP+FP}\).
0,429
Presisi mempertimbangkan semua klasifikasi positif, bukan semua klasifikasi yang benar. Rumus presisi adalah \(\frac{TP}{TP+FP}\)
Anda sedang membuat pengklasifikasi biner yang memeriksa foto-foto perangkap serangga untuk memeriksa keberadaan spesies invasif yang berbahaya. Jika model mendeteksi spesies, entomologis (ilmuwan serangga) yang bertugas akan diberi tahu. Deteksi awal serangga ini sangat penting untuk mencegah infestasi. Alarm palsu (positif palsu) mudah ditangani: entomologis melihat bahwa foto salah diklasifikasikan dan menandainya sebagai positif palsu. Dengan asumsi tingkat akurasi yang dapat diterima, metrik mana yang harus dioptimalkan untuk model ini?
Recall
Dalam skenario ini, alarm palsu (FP) memiliki biaya rendah, dan negatif palsu memiliki biaya yang sangat tinggi, sehingga wajar untuk memaksimalkan recall, atau kemungkinan deteksi.
Rasio positif palsu (FPR)
Dalam skenario ini, alarm palsu (FP) memiliki biaya rendah. Mencoba meminimalkannya dengan risiko kehilangan positif yang sebenarnya tidak masuk akal.
Presisi
Dalam skenario ini, alarm palsu (FP) tidak terlalu berbahaya, sehingga mencoba meningkatkan akurasi klasifikasi positif tidak masuk akal.