Spam e-posta algılama için 0 ile 1 arasında bir değer öngören ve belirli bir e-postanın spam olma olasılığını temsil eden bir mantıksal regresyon modeliniz olduğunu varsayalım. 0,50 değerinde bir tahmin, e-postanın spam olma olasılığının% 50 olduğunu, 0,75 değerinde bir tahmin ise e-postanın spam olma olasılığının% 75 olduğunu gösterir.
Spam'i ayrı bir posta klasörüne filtrelemek için bu modeli bir e-posta uygulamasında dağıtmak istiyorsunuz. Ancak bunu yapmak için modelin ham sayısal çıkışını (ör. 0.75
) iki kategoriden birine (spam veya spam değil) ayırır.
Bu dönüşümü yapmak için sınıflandırma eşiği adı verilen bir eşik olasılığı seçersiniz.
Ardından, eşik değerinin üzerinde olasılığa sahip örnekler, test ettiğiniz sınıfa (burada spam
) pozitif sınıfa atanır. Daha düşük olasılıklı örnekler negatif sınıf olan alternatif sınıfa atanır (burada, not spam
).
Sınıflandırma eşiği hakkında daha fazla bilgi için burayı tıklayın.
Tahmin edilen puan sınıflandırma eşiğine eşit olduğunda (örneğin, sınıflandırma eşiğinin de 0,5 olduğu 0,5 puan) ne olacağını merak ediyor olabilirsiniz. Bu durumun ele alınması, sınıflandırma modeli için seçilen uygulamaya bağlıdır. Puan ve eşik eşitse Keras kitaplığı negatif sınıfı tahmin eder ancak diğer araçlar/çerçeveler bu durumu farklı şekilde ele alabilir.
Modelin bir e-postayı 0, 99 olarak puanladığını ve bu e-postanın spam olma olasılığının% 99 olduğunu, başka bir e-postayı ise 0, 51 olarak puanladığını ve bu e-postanın spam olma olasılığının% 51 olduğunu varsayalım. Sınıflandırma eşiğini 0, 5 olarak ayarlarsanız model her iki e-postayı da spam olarak sınıflandırır. Eşiği 0,95 olarak ayarlarsanız yalnızca 0,99 puan alan e-posta spam olarak sınıflandırılır.
0,5 sezgisel bir eşik gibi görünse de bir yanlış sınıflandırma türünün maliyeti diğerinden daha yüksekse veya sınıflar dengesizse bu iyi bir fikir değildir. E-postaların yalnızca% 0, 01'i spam ise veya meşru e-postaların yanlış klasöre kaydedilmesi, spam'in gelen kutusuna girmesine izin vermekten daha kötüyse modelin spam olma olasılığı en az% 50 olarak değerlendirdiği her şeyi spam olarak etiketlemek istenmeyen sonuçlara yol açar.
Karışıklık matrisi
Olasılık puanı gerçek veya gerçek değer değildir. İkili sınıflandırıcıdan alınan her çıkış için dört olası sonuç vardır. Spam sınıflandırıcı örneğinde, kesinliği sütunlar, modelin tahminini de satırlar halinde düzenlerseniz karmaşıklık matrisi adı verilen aşağıdaki tablo ortaya çıkar:
Gerçek pozitif | Gerçek negatif | |
---|---|---|
Tahmin edilen pozitif | Doğru pozitif (TP): Doğru bir şekilde spam e-posta olarak sınıflandırılan spam e-posta. Bunlar, spam klasörüne otomatik olarak gönderilen spam iletilerdir. | Yanlış pozitif (FP): Spam olmayan bir e-postanın spam olarak yanlış sınıflandırılması. Bunlar, spam klasörüne gönderilen meşru e-postalardır. |
Tahmini negatif | Yanlış negatif (FN): Spam olarak sınıflandırılan ancak spam olmayan bir e-posta. Bunlar, spam filtresi tarafından yakalanmayan ve gelen kutusuna giren spam e-postalardır. | Doğru negatif (TN): Doğru şekilde spam değil olarak sınıflandırılan, spam olmayan bir e-posta. Bunlar, doğrudan gelen kutusuna gönderilen meşru e-postalardır. |
Her satırdaki toplamın, geçerlilikten bağımsız olarak tüm tahmini pozitifleri (TP + FP) ve tüm tahmini negatifleri (FN + TN) gösterdiğini unutmayın. Bu arada her sütundaki toplam, model sınıflandırmasından bağımsız olarak tüm gerçek pozitifleri (TP + FN) ve tüm gerçek negatifleri (FP + TN) gösterir.
Gerçek pozitiflerin toplamı, gerçek negatiflerin toplamına yakın değilse veri kümesi dengeli değildir. Dengesiz veri kümesine örnek olarak, binlerce bulut fotoğrafından oluşan bir küme gösterilebilir. Bu fotoğraflarda, ilgilendiğiniz nadir bulut türü (örneğin, volutus bulutları) yalnızca birkaç kez görünür.
Eşiğin doğru ve yanlış pozitif ve negatif değerler üzerindeki etkisi
Farklı eşikler genellikle farklı sayıda doğru ve yanlış pozitif ve doğru ve yanlış negatif sonuç verir. Bunun nedeni aşağıdaki videoda açıklanmıştır.
Eşiği kendiniz değiştirmeyi deneyin.
Bu widget üç oyuncak veri kümesi içerir:
- Ayrı: Olumlu örnekler ve olumsuz örnekler genellikle birbirinden iyi ayrılır ve çoğu olumlu örnek, olumsuz örneklerden daha yüksek puan alır.
- Ayrıştırılmamış: Birçok pozitif örneğin puanı negatif örneklerden düşük, birçok negatif örneğin puanı ise pozitif örneklerden yüksektir.
- Dengesiz: Yalnızca pozitif sınıfa ait birkaç örnek içerir.