Klasifikasi: Akurasi, perolehan, presisi, dan metrik terkait

Positif dan negatif benar serta palsu digunakan untuk menghitung beberapa metrik yang berguna untuk mengevaluasi model. Metrik evaluasi mana yang paling bermakna bergantung pada model tertentu dan tugas tertentu, biaya dari berbagai kesalahan klasifikasi, dan apakah set data seimbang atau tidak seimbang.

Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan akan berubah saat nilai minimum tersebut berubah. Sering kali, pengguna menyesuaikan nilai minimum untuk mengoptimalkan salah satu metrik ini.

Akurasi

Akurasi adalah proporsi dari semua klasifikasi yang benar, baik positif maupun negatif. Secara matematis, hal ini didefinisikan sebagai:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dalam contoh klasifikasi spam, akurasi mengukur fraksi dari semua email yang diklasifikasikan dengan benar.

Model yang sempurna akan memiliki positif palsu (PP) nol dan negatif palsu (NP) nol, sehingga akurasinya mencapai 1,0, atau 100%.

Karena menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), yang diberi set data yang seimbang, dengan jumlah contoh yang serupa di kedua class, akurasi dapat berfungsi sebagai ukuran kasar kualitas model. Oleh karena itu, metrik ini sering kali merupakan metrik evaluasi default yang digunakan untuk model umum atau tidak ditentukan yang menjalankan tugas umum atau tidak ditentukan.

Namun, jika set data tidak seimbang, atau jika satu jenis kesalahan (FN atau FP) lebih mahal daripada yang lain, yang merupakan kasus di sebagian besar aplikasi di dunia nyata, sebaiknya optimalkan salah satu metrik lainnya.

Untuk set data yang sangat tidak seimbang, dengan satu class sangat jarang muncul, katakanlah 1% dari waktu tersebut, model yang memprediksi negatif 100% dari waktu akan mendapatkan skor 99% atas akurasi, meskipun tidak berguna.

Perolehan, atau rasio positif benar

Rasio positif benar (TPR), atau proporsi semua positif sebenarnya yang dikaitkan dengan benar sebagai positif, juga dikenal sebagai recall.

Secara matematis, recall didefinisikan sebagai:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Negatif palsu adalah positif sebenarnya yang salah diklasifikasikan sebagai negatif, dan karenanya muncul di penyebut. Dalam contoh klasifikasi spam, recall mengukur fraksi email spam yang diklasifikasikan dengan benar sebagai spam. Inilah sebabnya nama lain untuk recall adalah probabilitas deteksi: metrik ini menjawab pertanyaan "Berapa fraksi email spam yang terdeteksi oleh model ini?"

Model hipotesis sempurna akan memiliki negatif palsu nol, sehingga perolehan (TPR) sebesar 1,0, yang artinya, tingkat deteksi 100%.

Dalam set data yang tidak seimbang dengan jumlah positif sebenarnya sangat rendah, misalnya 1-2 contoh secara total, recall kurang bermakna dan kurang berguna sebagai metrik.

Rasio positif palsu

Rasio positif palsu (FPR) adalah proporsi dari semua negatif sebenarnya yang diklasifikasikan secara salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Secara matematis, ini didefinisikan sebagai:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, itulah sebabnya positif palsu muncul di denominator. Dalam contoh klasifikasi spam, FPR mengukur fraksi email yang sah yang salah diklasifikasikan sebagai spam, atau rasio alarm palsu model.

Model yang sempurna tidak akan memiliki positif palsu sehingga FPR-nya adalah 0,0, yang berarti, rasio alarm palsu 0%.

Dalam set data tidak seimbang dengan jumlah negatif aktual sangat rendah, misalnya total 1-2 contoh, FPR kurang bermakna dan kurang berguna sebagai metrik.

Presisi

Presisi adalah proporsi semua klasifikasi positif model yang sebenarnya positif. Secara matematis, hal ini didefinisikan sebagai:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dalam contoh klasifikasi spam, presisi mengukur fraksi email yang diklasifikasikan sebagai spam yang sebenarnya adalah spam.

Model hipotesis sempurna akan memiliki positif palsu nol, sehingga presisinya sebesar 1,0.

Dalam set data tidak seimbang dengan jumlah positif aktual sangat rendah, misalnya total 1-2 contoh, presisi kurang berarti dan kurang berguna sebagai metrik.

Presisi meningkat seiring dengan penurunan positif palsu, sedangkan recall meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, meningkatkan nilai minimum klasifikasi cenderung mengurangi jumlah positif palsu dan meningkatkan jumlah negatif palsu, sedangkan menurunkan nilai minimum memiliki efek sebaliknya. Akibatnya, presisi dan perolehan sering menunjukkan hubungan terbalik, ketika meningkatkan salah satunya akan memperburuk yang lain.

Coba sendiri:

Apa arti NaN dalam metrik?

NaN, atau "not a number", muncul saat membagi dengan 0, yang dapat terjadi dengan salah satu metrik ini. Misalnya, jika TP dan FP sama-sama 0, formula presisi memiliki 0 di denominator, sehingga menghasilkan NaN. Meskipun dalam beberapa kasus NaN dapat menunjukkan performa sempurna dan dapat diganti dengan skor 1,0, NaN juga dapat berasal dari model yang praktis tidak berguna. Model yang tidak pernah memprediksi positif, misalnya, akan memiliki 0 TP dan 0 FP, sehingga penghitungan presisinya akan menghasilkan NaN.

Pilihan metrik dan konsekuensi

Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan memilih nilai minimum bergantung pada biaya, manfaat, dan risiko dari masalah tertentu. Dalam contoh klasifikasi spam, sering kali masuk akal untuk memprioritaskan perolehan, mengambil semua email spam, atau presisi, mencoba memastikan bahwa email berlabel spam benar-benar spam, atau keseimbangan di antara keduanya, di atas tingkat akurasi minimum.

Metrik Panduan
Akurasi

Gunakan sebagai indikator kasar progres/konvergensi pelatihan model untuk set data yang seimbang.

Untuk performa model, hanya gunakan dalam kombinasi dengan metrik lain.

Hindari untuk set data yang tidak seimbang. Pertimbangkan untuk menggunakan metrik lain.

Perolehan
(Rasio positif benar)
Gunakan jika negatif palsu lebih mahal daripada positif palsu.
Rasio positif palsu Gunakan jika positif palsu (PP) lebih mahal daripada negatif palsu.
Presisi Gunakan jika sangat penting bagi prediksi positif untuk akurat.

(Opsional, lanjutan) Skor F1

Skor F1 adalah rata-rata harmonis (semacam rata-rata) presisi dan recall.

Secara matematis, nilai tersebut diberikan oleh:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Metrik ini menyeimbangkan pentingnya presisi dan recall, dan lebih baik daripada akurasi untuk set data yang tidak seimbang. Jika presisi dan recall memiliki skor sempurna 1,0, F1 juga akan memiliki skor sempurna 1,0. Secara lebih luas, jika presisi dan recall memiliki nilai yang mendekati, F1 akan mendekati nilainya. Jika presisi dan perolehan sangat berbeda, F1 akan mirip dengan metrik yang lebih buruk.

Latihan: Periksa pemahaman Anda

Model menghasilkan 5 TP, 6 TN, 3 FP, dan 2 FN. Hitung recall.
0,714
Recall dihitung sebagai [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Perolehan mempertimbangkan semua positif yang sebenarnya, bukan semua klasifikasi yang benar. Rumus untuk recall adalah [\frac{TP}{TP+FN}].
0,625
Perolehan mempertimbangkan semua positif sebenarnya, bukan semua klasifikasi positif. Rumus untuk recall adalah [\frac{TP}{TP+FN}]
Model menghasilkan 3 TP, 4 TN, 2 FP, dan 1 FN. Hitung presisinya.
0,6
Presisi dihitung sebagai [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
Presisi mempertimbangkan semua klasifikasi positif, bukan semua positif sebenarnya. Rumus presisi adalah [\frac{TP}{TP+FP}].
0,429
Presisi mempertimbangkan semua klasifikasi positif, bukan semua klasifikasi yang benar. Rumus presisi adalah [\frac{TP}{TP+FP}]
Anda sedang membuat pengklasifikasi biner yang memeriksa foto-foto perangkap serangga untuk memeriksa keberadaan spesies invasif yang berbahaya. Jika model mendeteksi spesies, ahli entomologi (ilmuwan serangga) yang bertugas akan diberi tahu. Deteksi awal serangga ini sangat penting untuk mencegah infestasi. Alarm palsu (positif palsu) mudah ditangani: pakar entomologi melihat bahwa foto telah salah diklasifikasikan dan menandainya seperti itu. Dengan asumsi tingkat akurasi yang dapat diterima, metrik mana yang harus dioptimalkan untuk model ini?
Recall
Dalam skenario ini, alarm palsu (FP) berbiaya rendah, dan negatif palsu sangat mahal, sehingga masuk akal untuk memaksimalkan perolehan, atau probabilitas deteksi.
Rasio positif palsu (FPR)
Dalam skenario ini, alarm palsu (FP) berbiaya rendah. Mencoba meminimalkannya dengan risiko kehilangan positif yang sebenarnya tidak masuk akal.
Presisi
Dalam skenario ini, alarm palsu (FP) tidak terlalu berbahaya, sehingga mencoba meningkatkan akurasi klasifikasi positif tidak masuk akal.