Gerçek ve yanlış pozitif ve negatifler, modelleri değerlendirmek için çeşitli yararlı metrikleri hesaplamak amacıyla kullanılır. En anlamlı değerlendirme metriklerinin hangisi olduğu, modele ve göreve, farklı yanlış sınıflandırmaların maliyetine ve veri kümesinin dengeli olup olmadığına bağlıdır.
Bu bölümdeki tüm metrikler tek bir sabit eşikte hesaplanır ve eşik değiştiğinde değişir. Genellikle, kullanıcı bu metriklerden birini optimize etmek için eşiği ayarlar.
Doğruluk
Doğruluk, olumlu veya olumsuz olması fark etmeksizin doğru olan tüm sınıflandırmaların oranıdır. Matematiksel olarak şu şekilde tanımlanır:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Spam sınıflandırması örneğinde doğruluk, doğru şekilde sınıflandırılan tüm e-postaların kırılımını ölçer.
Mükemmel bir modelde sıfır yanlış pozitif ve sıfır yanlış negatif olur.Bu nedenle, doğruluk oranı 1,0 veya %100 olur.
Karışık matristeki dört sonucun (TP, FP, TN, FN) tümünü içerdiğinden, her iki sınıfta da benzer sayıda örnek içeren dengeli bir veri kümesi verildiğinde doğruluk, model kalitesinin kaba bir ölçüsü olarak kullanılabilir. Bu nedenle, genel veya belirsiz görevler yürüten genel veya belirsiz modeller için genellikle varsayılan değerlendirme metriğidir.
Bununla birlikte, veri kümesi dengeli değilse veya bir hata türünün (FN ya da FP) diğerinden daha maliyetli olduğu durumlarda (çoğu gerçek dünyadaki uygulamada bu durum söz konusudur), bunun yerine diğer metriklerden biri için optimizasyon yapmak daha iyidir.
Bir sınıfın çok nadir göründüğü (ör. toplamda% 1) ciddi düzeyde dengesiz veri kümeleri söz konusu olduğunda, her zaman% 100'ünün eksisini tahmin eden bir model, işe yaramasa da doğrulukta% 99 puan alır.
Geri çağırma veya gerçek pozitif oranı
Gerçek pozitif oranı (TPR) veya doğru olarak pozitif olarak sınıflandırılan tüm gerçek pozitiflerin oranı, geri çağırma olarak da bilinir.
Geri çağırma, matematiksel olarak şu şekilde tanımlanır:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Yanlış negatifler, yanlışlıkla negatif olarak sınıflandırılmış gerçek pozitiflerdir. Bu nedenle paydada görünürler. Spam sınıflandırması örneğinde geri çağırma, doğru bir şekilde spam olarak sınıflandırılan spam e-postaların oranını ölçer. Bu nedenle, hatırlama için başka bir ad algılama olasılığıdır: "Bu model tarafından spam e-postaların ne kadarı algılanır?" sorusunu yanıtlar.
Hayali bir mükemmel modelde sıfır yanlış negatif olur ve bu nedenle 1,0'a eşit bir geri çağırma (TPR) değeri, yani %100 algılama oranı olur.
Gerçek pozitiflerin sayısının çok çok düşük olduğu (ör. toplamda 1-2 örnek) dengesiz bir veri kümesinde, geri çağırma metriği olarak daha az anlamlı ve yararlı olur.
Yanlış pozitif oranı
Yanlış pozitif oranı (FPR), yanlış sınıflandırılmış tüm gerçek negatiflerin pozitif olarak sınıflandırılma oranını ifade eder. Bu oran, yanlış alarm olasılığı olarak da bilinir. Matematiksel olarak şu şekilde tanımlanır:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Yanlış pozitifler, yanlış sınıflandırılmış gerçek negatiflerdir. Bu nedenle, paydada gösterilirler. Spam sınıflandırması örneğinde FPR, yanlışlıkla spam olarak sınıflandırılmış meşru e-postaların oranını veya modelin yanlış alarm oranını ölçer.
Mükemmel bir modelde sıfır yanlış pozitif olur ve bu nedenle FPR 0,0 olur. Yani yanlış alarm oranı %0 olur.
Gerçek negatiflerin sayısının çok çok düşük olduğu (ör. toplamda 1-2 örnek) dengesiz bir veri kümesinde FPR, metrik olarak daha az anlamlı ve kullanışlıdır.
Hassasiyet
Kesinlik, modelin tüm pozitif sınıflandırmalarının gerçekte pozitif olan kısmının oranıdır. Matematiksel olarak şu şekilde tanımlanır:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Spam sınıflandırması örneğinde hassasiyet, spam olarak sınıflandırılan ve aslında spam olan e-postaların oranını ölçer.
Varsayımsal mükemmel bir modelin yanlış pozitifi sıfırdır ve dolayısıyla kesinliği 1,0 olur.
Gerçek pozitif sayısının çok ama çok düşük olduğu (ör. toplamda 1-2 örnek) dengesiz bir veri kümesinde, kesinlik daha az anlamlı ve metrik olarak daha az faydalıdır.
Yanlış pozitifler azaldıkça hassasiyet artar. Yanlış negatifler azaldıkça ise geri çağırma artar. Ancak, önceki bölümde görüldüğü gibi, sınıflandırma eşiğini artırmak yanlış pozitif sayısını azaltıp yanlış negatiflerin sayısını artırırken eşiğin azaltılması tam tersi etkilere yol açar. Sonuç olarak, hassasiyet ve hatırlama genellikle ters bir ilişki gösterir. Bu ilişkide, bunlardan birinin iyileştirilmesi diğerini kötüleştirir.
Kendiniz deneyin:
Metriklerde NaN ne anlama gelir?
0'a bölme işleminde NaN (veya "sayı değil") değeri görünür. Bu durum bu metriklerden herhangi birinde gerçekleşebilir. Örneğin, hem TP hem de FP 0 olduğunda, doğruluk formülündeki payda 0 olur ve sonuç NaN olur. NaN, bazı durumlarda mükemmel performansı gösterebilir ve 1,0 puanla değiştirilebilir. Ancak NaN, neredeyse işe yaramayan bir modelden de gelebilir. Örneğin, hiçbir zaman olumlu tahminde bulunmayan bir modelin 0 TP ve 0 YPP değeri olur. Bu nedenle, doğruluk hesaplaması NaN ile sonuçlanır.
Metrik ve denge seçimi
Modeli değerlendirirken ve bir eşik seçerken öncelik vermeyi seçtiğiniz metrikler, belirli sorunun maliyetlerine, avantajlarına ve risklerine bağlıdır. Spam sınıflandırması örneğinde, geri çağırmaya öncelik vermek, tüm spam e-postaları yakalamak veya hassas bir şekilde çalışmak çoğu zaman mantıklıdır. Spam etiketli e-postaların gerçekten spam olduğundan ya da bu ikisinin dengesinde olduğundan, belirli bir minimum doğruluk düzeyinin üzerinde olduğundan emin olmaya çalışmak çoğu zaman mantıklıdır.
Metrik | Yönerge |
---|---|
Doğruluk | Dengeli veri kümeleri için model eğitim ilerleme durumunun/yakınsamanın kabaca bir göstergesi olarak kullanın. Model performansı için yalnızca diğer metriklerle birlikte kullanın. Dengesiz veri kümelerinden kaçının. Başka bir metrik kullanabilirsiniz. |
Geri çağırma (Gerçek pozitif oranı) |
Yanlış negatifler yanlış pozitiflerden daha pahalı olduğunda kullanın. |
Yanlış pozitif oranı | Yanlış pozitifler yanlış negatiflerden daha pahalı olduğunda kullanın. |
Hassasiyet | Pozitif tahminlerin doğru olmasının çok önemli olduğu durumlarda kullanın. |
(İsteğe bağlı, gelişmiş) F1 puanı
F1 puanı, hassasiyet ve geri çağırmanın harmonik ortalamasıdır (bir tür ortalama).
Matematiksel olarak şu şekilde ifade edilir:
Bu metrik, hassasiyet ve geri çağırma değerlerinin önemini dengeler ve sınıf dengesi bozuk veri kümeleri için doğruluk yerine tercih edilir. Hassasiyet ve geri çağırma değerleri 1,0 değerinde olduğunda F1 değeri de 1,0 değerinde olur. Daha genel olarak, hassasiyet ve geri çağırma değerleri birbirine yakın olduğunda F1 de bu değerlerin yakınında olur. Hassasiyet ve geri çağırma birbirinden uzak olduğunda F1, daha kötü olan metriğe benzer.