Klasifikasi: Akurasi, perolehan, presisi, dan metrik terkait

Positif dan negatif benar dan salah digunakan untuk menghitung beberapa metrik untuk mengevaluasi model. Metrik evaluasi mana yang paling bermakna tergantung pada model dan tugas tertentu, serta biaya kesalahan klasifikasi yang berbeda, dan apakah {i>dataset<i} seimbang atau tidak seimbang.

Semua metrik di bagian ini dihitung pada satu nilai minimum tetap, dan berubah saat nilai minimum berubah. Sangat sering, pengguna menyetel nilai minimum untuk mengoptimalkan salah satu metrik tersebut.

Akurasi

Akurasi adalah proporsi dari semua klasifikasi yang benar, baik positif maupun negatif. Penting didefinisikan secara matematis sebagai:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dalam contoh klasifikasi spam, akurasi mengukur fraksi dari semua email diklasifikasikan dengan benar.

Model yang sempurna akan memiliki positif palsu nol dan negatif palsu nol, serta oleh karena itu akurasinya 1,0, atau 100%.

Karena model ini menggabungkan keempat hasil dari matriks konfusi (TP, FP, TN, FN), dengan pemberian dengan jumlah contoh yang sama di kedua class tersebut, akurasi bisa berfungsi sebagai ukuran umum untuk kualitas model. Karena alasan ini, sering kali metrik evaluasi default yang digunakan untuk model umum atau yang tidak ditentukan melaksanakan tugas umum atau tidak ditentukan.

Namun, ketika {i>dataset <i}tidak seimbang, atau di mana satu jenis kesalahan (FN atau FP) lebih mahal daripada yang lain, yaitu dalam kebanyakan aplikasi di dunia nyata, akan lebih baik untuk mengoptimalkan salah satu metrik lain sebagai gantinya.

Untuk set data yang sangat tidak seimbang, di mana satu class sangat jarang muncul, misalnya 1% dari model yang memprediksi negatif 100% dari waktu ke waktu akan mendapatkan skor 99% yang akurat, meskipun tidak berguna.

Recall, atau rasio positif benar

Rasio positif benar (TPR), atau proporsi semua positif aktual yang diklasifikasikan dengan benar sebagai positif, juga dikenal sebagai penarikan.

Recall secara matematis didefinisikan sebagai:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Negatif palsu adalah positif aktual yang salah diklasifikasikan sebagai negatif, yang adalah mengapa nilai itu muncul di penyebut. Dalam contoh klasifikasi spam, {i>recall<i} mengukur sebagian email spam yang diklasifikasikan dengan benar sebagai spam. Inilah sebabnya mengapa nama lain untuk recall adalah probabilitas deteksi: nama ini menjawab pertanyaan "Berapa bagian email spam yang terdeteksi model?"

Model hipotetis sempurna akan memiliki nol negatif palsu, sehingga perolehan (TPR) sebesar 1, 0, yakni tingkat deteksi 100%.

Dalam {i>dataset<i} yang tidak seimbang di mana jumlah positif aktual sangat, rendah, misalnya total 1-2 contoh, ingatan kurang berarti dan kurang berguna sebagai metrik.

Rasio positif palsu

Rasio positif palsu (FPR) adalah proporsi semua negatif aktual yang diklasifikasikan dengan salah sebagai positif, yang juga dikenal sebagai probabilitas alarm palsu. Penting didefinisikan secara matematis sebagai:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Positif palsu adalah negatif sebenarnya yang salah diklasifikasikan, itulah sebabnya muncul di penyebut. Dalam contoh klasifikasi spam, FPR mengukur sebagian email sah yang salah diklasifikasikan sebagai spam atau tingkat alarm palsu model.

Model yang sempurna akan memiliki positif palsu nol dan karenanya FPR 0,0, yaitu, tingkat alarm palsu 0%.

Dalam {i>dataset<i} yang tidak seimbang di mana jumlah negatif aktual sangat, rendah, misalnya total 1-2 contoh, FPR kurang berarti dan kurang berguna sebagai metrik.

Presisi

Presisi adalah proporsi dari semua klasifikasi positif model yang sebenarnya positif. Hal ini secara matematis didefinisikan sebagai:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dalam contoh klasifikasi spam, presisi mengukur fraksi email diklasifikasikan sebagai spam yang sebenarnya merupakan spam.

Model hipotesis sempurna akan memiliki positif palsu (PP) nol, sehingga dengan presisi sebesar 1,0.

Dalam {i>dataset<i} yang tidak seimbang di mana jumlah positif aktual sangat, rendah, misalnya total 1-2 contoh, presisi kurang berarti dan kurang berguna sebagai metrik.

Presisi meningkat saat positif palsu berkurang, sementara perolehan meningkat saat negatif palsu menurun. Namun, seperti yang terlihat di bagian sebelumnya, batas klasifikasi cenderung mengurangi jumlah positif palsu (PP) dan meningkatkan jumlah negatif palsu, sedangkan menurunkan ambang batas memiliki efek yang berlawanan. Akibatnya, presisi dan perolehan sering menunjukkan hasil sebaliknya hubungan baik, di mana memperbaiki salah satunya akan memperburuk yang lain.

Pilihan metrik dan konsekuensi

Metrik yang Anda pilih untuk diprioritaskan saat mengevaluasi model dan pemilihan ambang batas tergantung pada biaya, manfaat, dan risiko masalah spesifik. Dalam contoh klasifikasi {i>spam<i}, sering kali membuat masuk akal untuk memprioritaskan perolehan, menangkap semua email spam, atau presisi, mencoba memastikan bahwa email berlabel spam benar-benar spam, atau beberapa keseimbangan di antara keduanya, di atas tingkat akurasi minimum.

Metrik Panduan
Akurasi

Gunakan sebagai indikator kasar model progres/konvergensi pelatihan untuk set data yang seimbang.

Untuk performa model, gunakan hanya bersama metrik lainnya.

Hindari set data yang tidak seimbang. Sebaiknya gunakan metrik lain.

Recall
(Rasio positif benar)
Gunakan jika negatif palsu lebih banyak mahal daripada positif palsu.
Rasio positif palsu Gunakan bila positif palsu (PP) lebih mahal daripada negatif palsu.
Presisi Gunakan saat sangat penting bagi membuat prediksi positif akurat.

(Opsional, lanjutan) Skor F1

Skor F1 adalah rerata harmonik ( rata-rata) presisi dan perolehan.

Secara matematis, nilai tersebut diberikan oleh:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Metrik ini menyeimbangkan pentingnya presisi dan perolehan, serta lebih baik daripada akurasi untuk {i>dataset<i} kelas tidak seimbang. Saat presisi dan ingat keduanya memiliki skor sempurna 1.0, F1 juga akan memiliki skor sempurna. sebesar 1,0. Secara lebih luas, ketika nilai presisi dan perolehan mendekati, F1 akan mendekati nilainya. Ketika presisi dan perolehan berjauhan, F1 akan serupa dengan metrik mana pun yang lebih buruk.

Latihan: Memeriksa pemahaman Anda

Sebuah model menghasilkan 5 TP, 6 TN, 3 FP, dan 2 FN. Hitung penarikan kembali.
0,714
Perolehan dihitung sebagai [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Penarikan kembali mempertimbangkan semua positif yang sebenarnya, tidak semuanya benar klasifikasi. Rumus untuk penarikan adalah [\frac{TP}{TP+FN}].
0,625
Penarikan kembali mempertimbangkan semua hal positif yang sebenarnya, bukan semua hal positif klasifikasi. Rumus untuk penarikan adalah [\frac{TP}{TP+FN}]
Sebuah model menghasilkan 3 TP, 4 TN, 2 FP, dan 1 FN. Hitung presisinya.
0,6
Presisi dihitung sebagai [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
Presisi mempertimbangkan semua klasifikasi positif, tidak semua positif yang sebenarnya. Rumus untuk presisi adalah [\frac{TP}{TP+FP}].
0,429
Presisi mempertimbangkan semua klasifikasi positif, tidak semua klasifikasi yang benar. Rumus untuk presisi adalah [\frac{TP}{TP+FP}]
Anda sedang membuat pengklasifikasi biner yang memeriksa foto perangkap serangga untuk mengetahui apakah ada spesies invasif yang berbahaya. Jika model mendeteksi spesies, ahli entomologi (ilmuwan serangga) yang bertugas akan diberi tahu. Lebih awal deteksi serangga ini sangat penting untuk mencegah infestasi. J alarm palsu (positif palsu) mudah ditangani: ahli entomologi melihat bahwa foto salah diklasifikasikan dan menandainya seperti itu. Dengan asumsi bahwa model ini harus dioptimalkan untuk metrik mana?
Recall
Dalam skenario ini, alarm palsu (FP) berbiaya rendah, dan palsu negatif sangat mahal, jadi masuk akal untuk memaksimalkan perolehan, atau probabilitas deteksi.
Rasio positif palsu (FPR)
Dalam skenario ini, alarm palsu (FP) berbiaya rendah. Mencoba untuk meminimalkannya pada risiko hilangnya ke positifan yang sebenarnya tidak membuat masuk akal.
Presisi
Dalam skenario ini, alarm palsu (FP) tidak terlalu berbahaya, jadi mencoba untuk meningkatkan ketepatan klasifikasi positif tidak masuk akal.