Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler

Doğru ve yanlış pozitif ve negatif değerler kullanılarak birkaç faydalı sayı hesaplanırken metriklerini de kullanabilirsiniz. En önemli değerlendirme metrikleri o modele ve belirli göreve, modele ve veri kümesinin dengeli olup olmadığı ve bunların dengesiz olabilir.

Bu bölümdeki tüm metrikler tek bir sabit eşikte hesaplanır. ve eşik değiştiğinde de değişiklik yapabilirsiniz. Çoğu zaman, kullanıcı bu metriklerden birini optimize etmek için kullanabilirsiniz.

Doğruluk

Doğruluk, son 30 güne ait sınıflandırmalarını başarıyla tamamladık. Evet şöyle tanımlanır:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Spam sınıflandırması örneğinde doğruluk, tüm spam doğru sınıflandırılmıştır.

Mükemmel bir modelde sıfır yanlış pozitif, sıfır yanlış negatif ve sıfır doğruluk oranı 1,0, yani %100'dür.

Çünkü müşteri değerlendirmelerinin dört karmaşıklık matrisi (TP, FP, TN, FN), dengeli bir benzer sayıda örnek içeren bir veri kümesinden doğruluk oranı model kalitesinin genel bir ölçümü olarak işlev görür. Bu nedenle, genellikle genel veya belirtilmemiş modeller için kullanılan varsayılan değerlendirme metriği genel ya da tanımlanmamış görevleri yerine getirmekten ibaret değildir.

Ancak veri kümesi dengesiz olduğunda daha pahalıya mal oluyorsa (yanlış pozitif veya yanlış negatif) uygulamada olduğu gibi, uygulamalardan biri için optimizasyon yapmak daha diğer metrikleri kullanabilirsiniz.

Bir sınıfın çok nadir göründüğü büyük ölçüde dengesiz veri kümeleri için %100 negatif tahminde bulunan bir model sürecinde% 99 puan alırsa doğruluk kontrolü yapmak.

Geri çağırma veya gerçek pozitif oranı

Gerçek pozitif oranı (TPR) veya pozitif olarak doğru şekilde sınıflandırıldığından, geri çağırma.

Geri çağırma, matematiksel olarak şu şekilde tanımlanır:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Yanlış negatifler, olumsuz olarak yanlış sınıflandırılmış gerçek pozitiflerdir paydada görünmelerinin nedeni budur. Spam sınıflandırması örneğinde, geri çağırma, doğru bir şekilde spam e-postaları olarak sınıflandırılan spam'e dokunun. Bu nedenle geri çağırmanın diğer bir adı da tespit edilme olasılığıdır. "Bu sistem tarafından spam e-postaların oranı ne kadardır? modeliniz nedir?"

Varsayımsal mükemmel bir modelin yanlış negatif olması sıfır ve bu nedenle geri çağırma (TPR) yani 1.0% 100 algılama oranıdır.

Gerçek pozitif sayısının çok, çok düşük ve dengesiz bir veri kümesinde örneğin toplam 1-2 örnek görüyorsanız, geri çağırma daha az anlamlı ve daha az faydalıdır. kullanabilirsiniz.

Yanlış pozitif oranı

Yanlış pozitif oranı (FPR) yanlış olarak sınıflandırılmış tüm gerçek negatiflerin oranıdır olarak da bilinir, yanlış alarm olasılığı olarak da bilinir. Evet şöyle tanımlanır:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Yanlış pozitifler yanlış sınıflandırılmış gerçek negatiflerdir ve bu nedenle paydada görünürler. Spam sınıflandırması örneğinde FPR Yanlışlıkla spam olarak sınıflandırılan meşru e-postaların kırılması veya modelin yanlış alarm sayısı.

Mükemmel bir modelin yanlış pozitifi sıfırdır ve dolayısıyla FPR'si 0,0, yani% 0 yanlış alarm oranı.

Gerçek negatiflerin sayısının çok, çok düşük ve dengesiz bir veri kümesinde (toplamda 1-2 örnek varsa) FPR daha az anlamlı ve daha az yararlıdır. kullanabilirsiniz.

Hassasiyet

Kesinlik modelin tüm pozitif sınıflandırmalarının oranıdır düşünmeye başlayabilirsiniz. Bu değer matematiksel olarak şu şekilde tanımlanır:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Spam sınıflandırması örneğinde, kesinlik e-postaların kırılımını ölçer spam olarak sınıflandırıldı.

Varsayımsal mükemmel bir modelin yanlış pozitif olması sıfır ve bu nedenle hassasiyeti 1,0'dır.

Gerçek pozitif sayısının çok, çok düşük ve dengesiz bir veri kümesinde (toplam 1-2 örnek olabilir.) kesinlik daha az anlamlı ve daha az faydalıdır. kullanabilirsiniz.

Yanlış pozitifler azaldıkça hassasiyet artarken geri çağırma da artarken yanlış negatifler azalır. Ancak önceki bölümde görüldüğü gibi, yanlış pozitiflerin sayısını ve dolayısıyla yanlış pozitiflerin yanlış negatiflerin sayısını artırırken, eşiği düşürmek karşıt etkileri vardır. Sonuç olarak, hassasiyet ve geri çağırma genellikle ters ve bunlardan birinin iyileştirilmesi diğerinin daha kötü etkilendiği bir ilişkidir.

Metrik ve denge seçimi

Modeli değerlendirirken öncelik vermeyi seçtiğiniz metrikler ve projenin maliyetlerine, faydalarına ve risklerine bağlı olarak neden olabilir. Spam sınıflandırması örneğinde, genellikle geri çağırmaya öncelik vermek, spam e-postaların tümünü ele geçirmek veya e-postaların gerçekten spam olduğundan emin olmaya çalışıyorsanız veya aşağıdaki minimum doğruluk düzeyinin üzerindedir.

Metrik Yönerge
Doğruluk

Modelin genel bir göstergesi olarak kullan eğitim ilerlemesi/tümleşmesi hakkında daha fazla bilgi edinin.

Model performansı için yalnızca diğer metriklerle birlikte kullanın.

Dengesiz veri kümeleri kullanmaktan kaçının. Başka bir metrik kullanmayı düşünebilirsiniz.

Geri çağırma
(Gerçek pozitif oran)
Yanlış negatifler daha fazla olduğunda kullanın pahalıya mal olur.
Yanlış pozitif oranı Yanlış pozitif olduğunda kullanın daha pahalıya mal olur.
Hassasiyet Projeyi tamamlamak için olumlu tahminlerin doğru olmasını sağlayın.

(İsteğe bağlı, gelişmiş) F1 puanı

F1 puanı, harmonik ortalamayı ifade eder (a daha iyi anlarsınız.

Matematiksel olarak şu şekilde verilir:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Bu metrik, hassasiyet ve geri çağırmanın önemini dengeler ve daha fazla tercih edilir. Ne zaman kesinlik ve her ikisinin de tam puan 1,0 olduğunu, F1'in de tam puana sahip olduğunu 1,0. Daha genel olarak ifade etmek gerekirse, hassasiyet ve geri çağırmanın değeri birbirine yakın olduğunda, F1 değerine yakın olması gerekir. Hassasiyet ve geri çağırma birbirinden uzak olduğunda, F1 en kötü performans gösteren metrikle benzerdir.

Alıştırma: Öğrendiklerinizi sınayın

Bir model 5 TP, 6 TN, 3 FP ve 2 FN üretir. Geri çağırmayı hesaplayın.
0,714
Geri çağırma [\frac{TP}{TP+FN}=\frac{5}{7}] şeklinde hesaplanır.
0,455
Hatırlama, hepsinin doğru değil, gerçek tüm pozitifleri dikkate alır sınıflandırmaları da var. Geri çağırma formülü [\frac{TP}{TP+FN}] şeklindedir.
0,625
Hatırlama, olumlu durumların hepsini değil, gerçek pozitiflerin tümünü dikkate alır sınıflandırmaları da var. Geri çağırma formülü [\frac{TP}{TP+FN}] şeklindedir.
Bir model; 3 TP, 4 TN, 2 FP ve 1 FN üretir. Hassasiyeti hesaplayın.
0,6
Hassasiyet [\frac{TP}{TP+FP}=\frac{3}{5}] şeklinde hesaplanır.
0,75
Hassasiyet, tüm pozitif sınıflandırmaları değil, tüm pozitif sınıflandırmaları dikkate alır. gerçek pozitif değerlerdir. Hassasiyet formülü [\frac{TP}{TP+FP}] şeklindedir.
0,429
Hassasiyet, tüm pozitif sınıflandırmaları değil, tüm pozitif sınıflandırmaları dikkate alır. emin olun. Kesinlik formülü şudur: [\frac{TP}{TP+FP}]
Böcek tuzaklarının fotoğraflarını kontrol eden bir ikili sınıflandırıcı geliştiriyorsunuz olup olmadığını kontrol etmek için de kullanılabilir. Model, türetilirse entomoloji uzmanı (böcek bilimci) bilgilendirilir. Erken tespit edilmesi, istilayı önlemek açısından kritik öneme sahiptir. CEVAP bu tür durumların üstesinden gelmek çok kolaydır: Entomolog, fotoğraf yanlış sınıflandırıldı ve bu şekilde işaretlenir. Değişimin kabul edilebilir doğruluk düzeyine göre hangi metrik için optimize edilmelidir?
Geri çağırma
Bu senaryoda, yanlış alarmlar (FP) düşük maliyetli, yanlıştır negatif anahtar kelimeler oldukça maliyetlidir. Bu nedenle, hatırlanabilirliği veya olası satış yaratma tespit edebilir.
Yanlış pozitif oranı (FPR)
Bu senaryoda yanlış alarmların maliyeti düşüktür. Deneme riskleri en aza indirmek, onları gerçek pozitifleri kaçırma riskini en aza indirmektir. olması gerekir.
Hassasiyet
Bu senaryoda, yanlış alarmlar (FP) özellikle Bu nedenle, pozitif sınıflandırmaların doğruluğunu iyileştirmeye çalışmak mantıklı değildir.
.