Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler

Doğru ve yanlış pozitifler ile negatifler, modelleri değerlendirmek için çeşitli faydalı metrikleri hesaplamak amacıyla kullanılır. Hangi değerlendirme metriklerinin en anlamlı olduğu; modele, göreve, farklı yanlış sınıflandırmaların maliyetine ve veri kümesinin dengeli ya da dengesiz olmasına bağlıdır.

Bu bölümdeki tüm metrikler tek bir sabit eşikte hesaplanır ve eşik değiştiğinde değişir. Kullanıcı, genellikle bu metriklerden birini optimize etmek için eşiği ayarlar.

Doğruluk

Doğruluk, pozitif veya negatif olsun, doğru olan tüm sınıflandırmaların oranıdır. Matematiksel olarak şu şekilde tanımlanır:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Spam sınıflandırma örneğinde doğruluk, doğru sınıflandırılan tüm e-postaların oranını ölçer.

Mükemmel bir modelde sıfır yanlış pozitif ve sıfır yanlış negatif sonuç bulunur.Bu nedenle, doğruluk oranı 1, 0 veya %100 olur.

Karmaşıklık matrisindeki (TP, FP, TN, FN) dört sonucu da içerdiğinden, dengeli bir veri kümesi verildiğinde (her iki sınıfta da benzer sayıda örnekle) doğruluk, model kalitesinin kaba ölçüsü olarak kullanılabilir. Bu nedenle, genellikle genel veya belirtilmemiş görevleri gerçekleştiren genel ya da belirtilmemiş modeller için kullanılan varsayılan değerlendirme metriğidir.

Ancak veri kümesi dengesiz olduğunda veya bir tür hata (FN ya da FP) diğerinden daha maliyetli olduğunda (bu durum çoğu gerçek dünya uygulamasında geçerlidir) bunun yerine diğer metriklerden biri için optimizasyon yapmak daha iyidir.

Bir sınıfın çok nadiren (ör. zamanın %1'i) göründüğü, dengesiz veri kümelerinde, her zaman olumsuz tahmin yapan bir model, işe yaramamasına rağmen doğruluk açısından %99 puan alır.

Geri çağırma veya gerçek pozitif oranı

Gerçek pozitif oranı (TPR) veya tüm gerçek pozitiflerin doğru şekilde pozitif olarak sınıflandırılma oranı, geri çağırma olarak da bilinir.

Geri çağırma matematiksel olarak şu şekilde tanımlanır:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Yanlış negatifler, negatif olarak yanlış sınıflandırılmış gerçek pozitiflerdir. Bu nedenle paydada görünürler. Spam sınıflandırma örneğinde, hatırlama doğru şekilde spam olarak sınıflandırılan spam e-postaların oranını ölçer. Bu nedenle, hatırlama için kullanılan diğer ad algılama olasılığıdır. Bu metrik, "Bu model tarafından spam e-postaların ne kadarı algılanıyor?" sorusunu yanıtlar.

İdeal bir modelde sıfır yanlış negatif olur ve bu nedenle hatırlama (TPR) değeri 1,0 olur.Yani algılama oranı% 100'dür.

Gerçek pozitiflerin sayısının çok düşük olduğu dengesiz bir veri kümesinde, modelin tüm pozitif örnekleri doğru şekilde tanımlama becerisini ölçtüğü için hatırlama, doğruluktan daha anlamlı bir metriktir. Hastalık tahmini gibi uygulamalarda pozitif vakaların doğru şekilde tanımlanması çok önemlidir. Yanlış negatif genellikle yanlış pozitiften daha ciddi sonuçlara yol açar. Geri çağırma ve doğruluk metriklerini karşılaştıran somut bir örnek için geri çağırma tanımındaki notlara bakın.

Yanlış pozitif oranı

Yanlış pozitif oranı (YPO), yanlış bir şekilde pozitif olarak sınıflandırılan tüm gerçek negatiflerin oranıdır. Bu oran, yanlış alarm olasılığı olarak da bilinir. Matematiksel olarak şu şekilde tanımlanır:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Yanlış pozitifler, yanlış sınıflandırılmış gerçek negatiflerdir. Bu nedenle paydada görünürler. Spam sınıflandırması örneğinde, FPR yanlışlıkla spam olarak sınıflandırılan geçerli e-postaların oranını veya modelin yanlış alarm oranını ölçer.

Mükemmel bir modelde yanlış pozitif sonuç olmaz ve bu nedenle FPR değeri 0,0 olur.Bu da% 0 yanlış alarm oranı anlamına gelir.

Dengesiz bir veri kümesi için yanlış pozitif oranı (FPR) genellikle doğruluktan daha bilgilendirici bir metriktir. Ancak gerçek negatiflerin sayısı çok düşükse FPR, değişkenliği nedeniyle ideal bir seçenek olmayabilir. Örneğin, bir veri kümesinde yalnızca dört gerçek negatif varsa bir yanlış sınıflandırma %25 FPR ile sonuçlanır. İkinci bir yanlış sınıflandırma ise FPR'nin %50'ye yükselmesine neden olur. Bu gibi durumlarda, yanlış pozitiflerin etkilerini değerlendirmek için kesinlik (bir sonraki bölümde açıklanmıştır) daha dengeli bir metrik olabilir.

Hassasiyet

Kesinlik, modelin tüm pozitif sınıflandırmalarının gerçekte pozitif olanlarının oranıdır. Matematiksel olarak şu şekilde tanımlanır:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Spam sınıflandırması örneğinde, kesinlik spam olarak sınıflandırılan e-postaların gerçekte spam olan kısmını ölçer.

İdeal bir modelde yanlış pozitif sonuçlar olmaz ve bu nedenle hassasiyet 1,0 olur.

Gerçek pozitiflerin sayısının çok çok düşük olduğu dengesiz bir veri kümesinde (ör. toplamda 1-2 örnek) kesinlik, bir metrik olarak daha az anlamlı ve daha az kullanışlıdır.

Yanlış pozitifler azaldıkça hassasiyet artar. Yanlış negatifler azaldıkça ise geri çağırma artar. Ancak önceki bölümde görüldüğü gibi, sınıflandırma eşiğinin artırılması yanlış pozitif sayısını azaltma ve yanlış negatif sayısını artırma eğilimindeyken eşiğin düşürülmesi tam tersi etkilere neden olur. Bu nedenle, kesinlik ve hatırlama arasında genellikle ters bir ilişki vardır. Bunlardan birini iyileştirmek diğerini kötüleştirir.

Kendiniz deneyin:

Metriklerde NaN ne anlama gelir?

NaN veya "sayı değil", 0'a bölme işlemi yapıldığında görünür. Bu durum, aşağıdaki metriklerin herhangi biriyle gerçekleşebilir. Örneğin, hem TP hem de FP 0 olduğunda kesinlik formülünün paydasında 0 olur ve sonuç NaN olur. Bazı durumlarda NaN, mükemmel performansı gösterebilir ve 1,0 puanla değiştirilebilir.Ancak bu değer, pratik olarak işe yaramayan bir modelden de kaynaklanabilir. Örneğin, hiçbir zaman olumlu tahmin yapmayan bir modelin 0 DO'su ve 0 YDO'su olur. Bu nedenle, kesinliğinin hesaplanması NaN ile sonuçlanır.

Metrik seçimi ve denge unsurları

Modeli değerlendirirken ve eşik seçerken öncelik vermeyi tercih ettiğiniz metrikler, söz konusu sorunun maliyetlerine, faydalarına ve risklerine bağlıdır. Spam sınıflandırma örneğinde, tüm spam e-postaları yakalayarak geri çağırmaya veya spam olarak etiketlenen e-postaların gerçekten spam olmasını sağlamaya çalışarak kesinliğe ya da ikisinin bir dengesine, minimum doğruluk düzeyinin üzerinde öncelik vermek genellikle mantıklıdır.

Metrik	Yönerge
Doğruluk	Dengeli veri kümeleri için model eğitiminin ilerleme durumunu/yakınsamayı kabaca gösteren bir gösterge olarak kullanılır. Model performansı için yalnızca diğer metriklerle birlikte kullanın. Dengesiz veri kümeleri için kaçının. Başka bir metrik kullanmayı deneyin.
Geri çağırma (Gerçek pozitif oranı)	Yanlış negatifler, yanlış pozitiflerden daha maliyetli olduğunda kullanılır.
Yanlış pozitif oranı	Yanlış pozitif sonuçlar, yanlış negatif sonuçlardan daha maliyetli olduğunda kullanılır.
Hassasiyet	Pozitif tahminlerin doğru olması çok önemli olduğunda kullanın.

(İsteğe bağlı, gelişmiş) F1 puanı

F1 puanı, hassasiyet ve geri çağırmanın harmonik ortalamasıdır (bir tür ortalama).

Matematiksel olarak şu şekilde ifade edilir:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Bu metrik, kesinlik ve hatırlamanın önemini dengeler ve sınıf dengesizliği olan veri kümeleri için doğruluktan daha iyi bir seçenektir. Hassasiyet ve geri çağırma değerlerinin her ikisi de 1,0 olduğunda F1 değeri de 1,0 olur. Daha genel olarak, hassasiyet ve geri çağırma değerleri birbirine yakın olduğunda F1 de bu değerlere yakın olur. Hassasiyet ve geri çağırma değerleri birbirinden çok farklı olduğunda F1, daha kötü olan metriğe benzer.

Alıştırma: Öğrendiklerinizi test etme

Bir model 5 DO, 6 GD, 3 YDO ve 2 YD çıkışı veriyor. Geri çağırmayı hesaplayın.

0,714

Geri çağırma şu şekilde hesaplanır: \(\frac{TP}{TP+FN}=\frac{5}{7}\).

0,455

Geri çağırma, tüm doğru sınıflandırmaları değil, tüm gerçek pozitifleri dikkate alır. Geri çağırma formülü \(\frac{TP}{TP+FN}\)şeklindedir.

0,625

Geri çağırma, tüm pozitif sınıflandırmaları değil, tüm gerçek pozitifleri dikkate alır. Geri çağırma formülü şöyledir: \(\frac{TP}{TP+FN}\)

Bir model 3 TP, 4 TN, 2 FP ve 1 FN çıkışı veriyor. Hassasiyeti hesaplayın.

0,6

Hassasiyet, \(\frac{TP}{TP+FP}=\frac{3}{5}\)olarak hesaplanır.

0,75

Kesinlik, tüm pozitif sınıflandırmaları dikkate alır, tüm gerçek pozitifleri değil. Kesinlik formülü şöyledir: \(\frac{TP}{TP+FP}\).

0,429

Hassasiyet, tüm doğru sınıflandırmaları değil, tüm pozitif sınıflandırmaları dikkate alır. Kesinlik formülü şöyledir: \(\frac{TP}{TP+FP}\)

Zararlı istilacı türlerin varlığını kontrol etmek için böcek tuzaklarının fotoğraflarını inceleyen bir ikili sınıflandırıcı oluşturuyorsunuz. Model türü algılarsa görevdeki entomolog (böcek bilimci) bilgilendirilir. Bu böceğin erken tespit edilmesi, istilayı önlemek için kritik öneme sahiptir. Yanlış alarm (yanlış pozitif) kolayca ele alınabilir: Entomolog, fotoğrafın yanlış sınıflandırıldığını görür ve bunu işaretler. Kabul edilebilir bir doğruluk seviyesi olduğunu varsayarsak bu model hangi metrik için optimize edilmelidir?

Geri çağırma

Bu senaryoda yanlış alarmlar (FP) düşük maliyetli, yanlış negatifler ise yüksek maliyetlidir. Bu nedenle, hatırlamayı veya algılama olasılığını en üst düzeye çıkarmak mantıklıdır.

Yanlış pozitif oranı (FPR)

Bu senaryoda yanlış alarmlar (FP) düşük maliyetlidir. Gerçek pozitifleri kaçırma riskiyle bunları en aza indirmeye çalışmak mantıklı değildir.

Hassasiyet

Bu senaryoda, yanlış pozitifler (FP) özellikle zararlı değildir. Bu nedenle, pozitif sınıflandırmaların doğruluğunu artırmaya çalışmak mantıklı değildir.

Eşikler ve karışıklık matrisi (12 dk.)

ROC ve AUC (10 dk.)

Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Doğruluk

Geri çağırma veya gerçek pozitif oranı

Yanlış pozitif oranı

Hassasiyet

Metriklerde NaN ne anlama gelir?

Metrik seçimi ve denge unsurları

(İsteğe bağlı, gelişmiş) F1 puanı

Alıştırma: Öğrendiklerinizi test etme

Sınıflandırma: Doğruluk, geri çağırma, hassasiyet ve ilgili metrikler