Doğru ve yanlış pozitif ve negatif değerler kullanılarak birkaç faydalı sayı hesaplanırken metriklerini de kullanabilirsiniz. En önemli değerlendirme metrikleri o modele ve belirli göreve, modele ve veri kümesinin dengeli olup olmadığı ve bunların dengesiz olabilir.
Bu bölümdeki tüm metrikler tek bir sabit eşikte hesaplanır. ve eşik değiştiğinde de değişiklik yapabilirsiniz. Çoğu zaman, kullanıcı bu metriklerden birini optimize etmek için kullanabilirsiniz.
Doğruluk
Doğruluk, son 30 güne ait sınıflandırmalarını başarıyla tamamladık. Evet şöyle tanımlanır:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Spam sınıflandırması örneğinde doğruluk, tüm spam doğru sınıflandırılmıştır.
Mükemmel bir modelde sıfır yanlış pozitif, sıfır yanlış negatif ve sıfır doğruluk oranı 1,0, yani %100'dür.
Çünkü müşteri değerlendirmelerinin dört karmaşıklık matrisi (TP, FP, TN, FN), dengeli bir benzer sayıda örnek içeren bir veri kümesinden doğruluk oranı model kalitesinin genel bir ölçümü olarak işlev görür. Bu nedenle, genellikle genel veya belirtilmemiş modeller için kullanılan varsayılan değerlendirme metriği genel ya da tanımlanmamış görevleri yerine getirmekten ibaret değildir.
Ancak veri kümesi dengesiz olduğunda daha pahalıya mal oluyorsa (yanlış pozitif veya yanlış negatif) uygulamada olduğu gibi, uygulamalardan biri için optimizasyon yapmak daha diğer metrikleri kullanabilirsiniz.
Bir sınıfın çok nadir göründüğü büyük ölçüde dengesiz veri kümeleri için %100 oranında negatif tahminde bulunan bir model, aynı sürede% 99 puan alırsa doğruluk kontrolü yapmak.
Geri çağırma veya gerçek pozitif oranı
Gerçek pozitif oranı (TPR) veya pozitif olarak doğru şekilde sınıflandırıldığından, geri çağırma.
Geri çağırma, matematiksel olarak şu şekilde tanımlanır:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Yanlış negatifler, olumsuz olarak yanlış sınıflandırılmış gerçek pozitiflerdir paydada görünmelerinin nedeni budur. Spam sınıflandırması örneğinde, geri çağırma, doğru bir şekilde spam e-postaları olarak sınıflandırılan spam'e dokunun. Bu nedenle geri çağırmanın diğer bir adı da tespit edilme olasılığıdır. "Bu sistem tarafından spam e-postaların oranı ne kadardır? modeliniz nedir?"
Varsayımsal mükemmel bir modelin yanlış negatif olması sıfır ve bu nedenle geri çağırma (TPR) yani 1.0% 100 algılama oranıdır.
Gerçek pozitif sayısının çok, çok düşük ve dengesiz bir veri kümesinde örneğin toplam 1-2 örnek görüyorsanız, geri çağırma daha az anlamlı ve daha az faydalıdır. kullanabilirsiniz.
Yanlış pozitif oranı
Yanlış pozitif oranı (FPR) yanlış olarak sınıflandırılmış tüm gerçek negatiflerin oranıdır olarak da bilinir, yanlış alarm olasılığı olarak da bilinir. Evet şöyle tanımlanır:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Yanlış pozitifler yanlış sınıflandırılmış gerçek negatiflerdir ve bu nedenle paydada görünürler. Spam sınıflandırması örneğinde FPR Yanlışlıkla spam olarak sınıflandırılan meşru e-postaların kırılması veya modelin yanlış alarm sayısı.
Mükemmel bir modelin yanlış pozitifi sıfırdır ve dolayısıyla FPR'si 0,0, yani% 0 yanlış alarm oranı.
Gerçek negatiflerin sayısının çok, çok düşük ve dengesiz bir veri kümesinde (toplamda 1-2 örnek varsa) FPR daha az anlamlı ve daha az yararlıdır. kullanabilirsiniz.
Hassasiyet
Kesinlik modelin tüm pozitif sınıflandırmalarının oranıdır düşünmeye başlayabilirsiniz. Bu değer matematiksel olarak şu şekilde tanımlanır:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Spam sınıflandırması örneğinde, kesinlik e-postaların kırılımını ölçer spam olarak sınıflandırıldı.
Varsayımsal mükemmel bir modelin yanlış pozitif olması sıfır ve bu nedenle hassasiyeti 1,0'dır.
Gerçek pozitif sayısının çok, çok düşük ve dengesiz bir veri kümesinde (toplam 1-2 örnek olabilir.) kesinlik daha az anlamlı ve daha az faydalıdır. kullanabilirsiniz.
Yanlış pozitifler azaldıkça hassasiyet artarken geri çağırma da artarken yanlış negatifler azalır. Ancak önceki bölümde görüldüğü gibi, yanlış pozitiflerin sayısını ve dolayısıyla yanlış pozitiflerin yanlış negatiflerin sayısını artırırken, eşiği düşürmek karşıt etkileri vardır. Sonuç olarak, hassasiyet ve geri çağırma genellikle ters ve bunlardan birinin iyileştirilmesi diğerinin daha kötü etkilendiği bir ilişkidir.
Kendiniz deneyin:
Metriklerdeki NaN ne anlama geliyor?
NaN veya "sayı değil" 0'a bölündüğünde ortaya çıkar. Bu, bu metriklerden herhangi birini seçebilirsiniz. Örneğin, hem TP hem de FP 0 olduğunda kesinlik formülünün paydası 0'dır. Bu da NaN sonucunu verir. Bu sırada bazı durumlarda NaN mükemmel performansı gösterebilir ve 1,0 puanla değiştirildiği için, bu puan pratikte kullanılabilecek bir modelden de işe yaramaz. Örneğin, hiçbir zaman pozitif tahminde bulunmayan bir modelin 0 TP'si olur. ve 0 FP'dir. Dolayısıyla hassasiyetinin hesaplanması, NaN sonucunu verir.
Metrik ve denge seçimi
Modeli değerlendirirken öncelik vermeyi seçtiğiniz metrikler ve projenin maliyetlerine, faydalarına ve risklerine bağlı olarak neden olabilir. Spam sınıflandırması örneğinde, genellikle geri çağırmaya öncelik vermek, spam e-postaların tümünü ele geçirmek veya e-postaların gerçekten spam olduğundan emin olmaya çalışıyorsanız veya aşağıdaki minimum doğruluk düzeyinin üzerindedir.
Metrik | Yönerge |
---|---|
Doğruluk | Modelin genel bir göstergesi olarak kullan eğitim ilerlemesi/tümleşmesi hakkında daha fazla bilgi edinin. Model performansı için yalnızca diğer metriklerle birlikte kullanın. Dengesiz veri kümeleri kullanmaktan kaçının. Başka bir metrik kullanmayı düşünebilirsiniz. |
Geri çağırma (Gerçek pozitif oran) |
Yanlış negatifler daha fazla olduğunda kullanın pahalıya mal olur. |
Yanlış pozitif oranı | Yanlış pozitif olduğunda kullanın daha pahalıya mal olur. |
Hassasiyet | Projeyi tamamlamak için olumlu tahminlerin doğru olmasını sağlayın. |
(İsteğe bağlı, gelişmiş) F1 puanı
F1 puanı, harmonik ortalamayı ifade eder (a daha iyi anlarsınız.
Matematiksel olarak şu şekilde verilir:
Bu metrik, hassasiyet ve geri çağırmanın önemini dengeler ve daha fazla tercih edilir. Ne zaman kesinlik ve her ikisinin de tam puan 1,0 olduğunu, F1'in de tam puana sahip olduğunu 1,0. Daha genel olarak ifade etmek gerekirse, hassasiyet ve geri çağırmanın değeri birbirine yakın olduğunda, F1 değerine yakın olması gerekir. Hassasiyet ve geri çağırma birbirinden uzak olduğunda, F1 en kötü performans gösteren metrikle benzerdir.