Halaman ini diterjemahkan oleh Cloud Translation API.

Klasifikasi: Akurasi, perolehan, presisi, dan metrik terkait

Positif dan negatif benar serta palsu digunakan untuk menghitung beberapa metrik yang berguna untuk mengevaluasi model. Metrik evaluasi mana yang paling bermakna bergantung pada model tertentu dan tugas tertentu, biaya berbagai kesalahan klasifikasi, dan apakah set data seimbang atau tidak seimbang.

Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan berubah saat nilai minimum berubah. Sering kali, pengguna menyesuaikan nilai minimum untuk mengoptimalkan salah satu metrik ini.

Akurasi

Akurasi adalah proporsi dari semua klasifikasi yang benar, baik positif maupun negatif. Secara matematis, hal ini didefinisikan sebagai:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dalam contoh klasifikasi spam, akurasi mengukur fraksi dari semua email yang diklasifikasikan dengan benar.

Model yang sempurna tidak akan memiliki positif palsu dan negatif palsu, sehingga akurasinya 1,0, atau 100%.

Karena menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), dengan set data yang seimbang, dengan jumlah contoh yang serupa di kedua class, akurasi dapat berfungsi sebagai ukuran kualitas model yang kasar. Karena alasan ini, metrik ini sering kali menjadi metrik evaluasi default yang digunakan untuk model generik atau tidak ditentukan yang melakukan tugas generik atau tidak ditentukan.

Namun, jika set data tidak seimbang, atau jika satu jenis kesalahan (FN atau FP) lebih mahal daripada yang lain, yang merupakan kasus di sebagian besar aplikasi di dunia nyata, sebaiknya optimalkan salah satu metrik lainnya.

Untuk set data yang sangat tidak seimbang, dengan satu class yang sangat jarang muncul, misalnya 1% dari waktu, model yang memprediksi negatif 100% dari waktu akan mendapatkan skor 99% akurasi, meskipun tidak berguna.

Perolehan, atau rasio positif benar

Rasio positif benar (TPR), atau proporsi semua positif sebenarnya yang dikaitkan dengan benar sebagai positif, juga dikenal sebagai recall.

Secara matematis, recall didefinisikan sebagai:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Negatif palsu adalah positif sebenarnya yang salah diklasifikasikan sebagai negatif, itulah sebabnya nilai ini muncul di penyebut. Dalam contoh klasifikasi spam, recall mengukur fraksi email spam yang diklasifikasikan dengan benar sebagai spam. Inilah sebabnya nama lain untuk recall adalah probabilitas deteksi: metrik ini menjawab pertanyaan "Berapa fraksi email spam yang terdeteksi oleh model ini?"

Model sempurna hipotetis tidak akan memiliki negatif palsu sehingga recall (TPR)-nya adalah 1, 0, yang berarti rasio deteksi 100%.

Dalam set data yang tidak seimbang dengan jumlah positif sebenarnya sangat rendah, recall adalah metrik yang lebih bermakna daripada akurasi karena mengukur kemampuan model untuk mengidentifikasi semua instance positif dengan benar. Untuk aplikasi seperti prediksi penyakit, identifikasi kasus positif dengan benar sangatlah penting. Negatif palsu biasanya memiliki konsekuensi yang lebih serius daripada positif palsu. Untuk contoh konkret yang membandingkan metrik recall dan akurasi, lihat catatan dalam definisi recall.

Rasio positif palsu

Rasio positif palsu (FPR) adalah proporsi dari semua negatif sebenarnya yang diklasifikasikan secara salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Secara matematis, hal ini didefinisikan sebagai:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, itulah sebabnya positif palsu muncul di denominator. Dalam contoh klasifikasi spam, FPR mengukur fraksi email yang sah yang salah diklasifikasikan sebagai spam, atau rasio alarm palsu model.

Model yang sempurna tidak akan memiliki positif palsu sehingga FPR-nya 0,0, yang berarti rasio alarm palsu 0%.

Dalam set data yang tidak seimbang dengan jumlah negatif yang sebenarnya sangat rendah, misalnya 1-2 contoh secara total, FPR kurang bermakna dan kurang berguna sebagai metrik.

Presisi

Presisi adalah proporsi dari semua klasifikasi positif model yang benar-benar positif. Secara matematis, definisinya adalah:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dalam contoh klasifikasi spam, presisi mengukur fraksi email yang diklasifikasikan sebagai spam yang sebenarnya merupakan spam.

Model sempurna hipotetis tidak akan memiliki positif palsu, sehingga presisinya adalah 1,0.

Dalam set data yang tidak seimbang dengan jumlah positif sebenarnya sangat rendah, misalnya 1-2 contoh secara total, presisi kurang bermakna dan kurang berguna sebagai metrik.

Presisi meningkat seiring dengan penurunan positif palsu, sedangkan perolehan meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, menaikkan nilai minimum klasifikasi cenderung mengurangi jumlah positif palsu dan meningkatkan jumlah negatif palsu, sedangkan menurunkan nilai minimum akan memberikan efek sebaliknya. Akibatnya, presisi dan recall sering kali menunjukkan hubungan terbalik, dengan meningkatkan salah satunya akan memperburuk yang lain.

Coba sendiri:

Apa arti NaN dalam metrik?

NaN, atau "not a number", muncul saat membagi dengan 0, yang dapat terjadi dengan salah satu metrik ini. Misalnya, jika TP dan FP sama-sama 0, formula presisi memiliki 0 di denominator, sehingga menghasilkan NaN. Meskipun dalam beberapa kasus NaN dapat menunjukkan performa sempurna dan dapat diganti dengan skor 1,0, NaN juga dapat berasal dari model yang praktis tidak berguna. Misalnya, model yang tidak pernah memprediksi positif akan memiliki 0 TP dan 0 FP sehingga penghitungan presisinya akan menghasilkan NaN.

Pilihan metrik dan kompromi

Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan memilih nilai minimum bergantung pada biaya, manfaat, dan risiko masalah tertentu. Dalam contoh klasifikasi spam, sering kali lebih baik memprioritaskan recall, yaitu menangkap semua email spam, atau presisi, mencoba memastikan bahwa email berlabel spam memang spam, atau beberapa keseimbangan antara keduanya, di atas beberapa tingkat akurasi minimum.

Metrik	Panduan
Akurasi	Gunakan sebagai indikator kasar progres/konvergensi pelatihan model untuk set data yang seimbang. Untuk performa model, hanya gunakan dalam kombinasi dengan metrik lain. Hindari untuk set data yang tidak seimbang. Pertimbangkan untuk menggunakan metrik lain.
Perolehan (Rasio positif benar)	Gunakan jika negatif palsu lebih mahal daripada positif palsu.
Rasio positif palsu	Gunakan jika positif palsu lebih mahal daripada negatif palsu.
Presisi	Gunakan jika sangat penting bagi prediksi positif untuk akurat.

(Opsional, lanjutan) Skor F1

Skor F1 adalah rata-rata harmonis (semacam rata-rata) presisi dan perolehan.

Secara matematis, hal ini diberikan oleh:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Metrik ini menyeimbangkan pentingnya presisi dan recall, dan lebih baik daripada akurasi untuk set data yang tidak seimbang. Jika presisi dan recall memiliki skor sempurna 1,0, F1 juga akan memiliki skor sempurna 1,0. Secara lebih luas, jika presisi dan perolehan memiliki nilai yang mendekati, F1 akan mendekati nilainya. Jika presisi dan perolehan sangat berbeda, F1 akan mirip dengan metrik mana pun yang lebih buruk.

Latihan: Periksa pemahaman Anda

Model menghasilkan 5 TP, 6 TN, 3 FP, dan 2 FN. Hitung recall.

0,714

Recall dihitung sebagai \(\frac{TP}{TP+FN}=\frac{5}{7}\).

0,455

Perolehan mempertimbangkan semua positif yang sebenarnya, bukan semua klasifikasi yang benar. Rumus untuk recall adalah \(\frac{TP}{TP+FN}\).

0,625

Perolehan mempertimbangkan semua positif sebenarnya, bukan semua klasifikasi positif. Rumus untuk recall adalah \(\frac{TP}{TP+FN}\)

Model menghasilkan 3 TP, 4 TN, 2 FP, dan 1 FN. Hitung presisi.

0,6

Presisi dihitung sebagai \(\frac{TP}{TP+FP}=\frac{3}{5}\).

0,75

Presisi mempertimbangkan semua klasifikasi positif, bukan semua positif yang sebenarnya. Rumus presisi adalah \(\frac{TP}{TP+FP}\).

0,429

Presisi mempertimbangkan semua klasifikasi positif, bukan semua klasifikasi yang benar. Rumus presisi adalah \(\frac{TP}{TP+FP}\)

Anda sedang membuat pengklasifikasi biner yang memeriksa foto perangkap serangga untuk mengetahui apakah ada spesies invasif berbahaya. Jika model mendeteksi spesies, entomologis (ilmuwan serangga) yang bertugas akan diberi tahu. Deteksi awal serangga ini sangat penting untuk mencegah infestasi. Alarm palsu (positif palsu) mudah ditangani: entomologis melihat bahwa foto salah diklasifikasikan dan menandainya sebagai positif palsu. Dengan asumsi tingkat akurasi yang dapat diterima, metrik mana yang harus dioptimalkan untuk model ini?

Recall

Dalam skenario ini, alarm palsu (FP) memiliki biaya rendah, dan negatif palsu memiliki biaya yang sangat tinggi, jadi sebaiknya maksimalkan recall, atau kemungkinan deteksi.

Rasio positif palsu (FPR)

Dalam skenario ini, alarm palsu (FP) memiliki biaya rendah. Mencoba meminimalkannya dengan risiko kehilangan positif yang sebenarnya tidak masuk akal.

Presisi

Dalam skenario ini, alarm palsu (FP) tidak terlalu berbahaya, sehingga mencoba meningkatkan akurasi klasifikasi positif tidak masuk akal.

Sebelumnya

Nilai minimum dan matriks konfusi (12 mnt)

Berikutnya

ROC dan AUC (10 menit)

Klasifikasi: Akurasi, perolehan, presisi, dan metrik terkait Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Akurasi

Perolehan, atau rasio positif benar

Rasio positif palsu

Presisi

Apa arti NaN dalam metrik?

Pilihan metrik dan kompromi

(Opsional, lanjutan) Skor F1

Latihan: Periksa pemahaman Anda

Klasifikasi: Akurasi, perolehan, presisi, dan metrik terkait