Eşikler ve karışıklık matrisi

Spam e-posta tespiti için mantıksal bir regresyon modeliniz olduğunu varsayalım. 0 ile 1 arasında bir değeri tahmin eder. Bu, belirli bir değerin spam'dir. 0,50’lik bir tahmin, e-postanın 0,75 olan bir tahmin, e-postanın spam olma ihtimalinin% 75 olduğunu, vb.

Spam filtreleri filtrelemek için bu modeli bir e-posta uygulamasına dağıtmak istiyorsunuz: ayrı bir posta klasöründe bulabilirsiniz. Ama bunu yapmak için modelin ham verilerini sayısal çıktı (ör. 0.75) şu iki kategoriden birine ayrılır: "spam" veya " gönderin."

Bu dönüşümü elde etmek için, güven seviyesi olarak adlandırılan bir eşik olasılığı sınıflandırma eşiğine uyduğundan emin olun. Olasılıkların eşik değerinin üzerinde olduğu örnekler, daha sonra olumlu sınıfa, (burada, spam) test ettiğiniz sınıfla ilgilidir. Daha düşük olan örnekler olasılık negatif sınıfa atanırsa alternatif sınıf (burada, not spam) yer alır.

Sınıflandırma eşiği hakkında daha fazla bilgi için burayı tıklayın

Tahmin edilen puan bu değere eşit olduğunda ne olacağını merak ediyor olabilirsiniz. (örneğin, puan 0,5 puandır.) sınıflandırma eşiği de 0,5'tir)? Bu destek kaydı için sevkiyata hazırlık sınıflandırma için seçilen uygulamaya bağlıdır. modeli. Örneğin, Keras puan ve eşik, negatif sınıfa karşılık gelecek şekilde eşittir, ancak diğer araçlar/çerçeveler bu durumu ele alabilir değiştirebilirsiniz.

Örneğin, modelin bir e-postayı 0, 99 olarak puanladığını ve bu e-posta adresinin bu e-postanın spam olma olasılığı% 99, diğer bir e-posta ise olduğunu varsayarsak iletinin spam olma ihtimali% 51'dir. Örneğin olarak 0, 5 olarak sınıflandırıldığında model her iki e-postayı da spam'e dokunun. Eşiği 0,95 olarak belirlerseniz yalnızca 0,99 puan alan e-posta spam olarak sınıflandırılamaz.

0, 5 kolay bir eşik gibi görünse de bir yanlış sınıflandırma türünün maliyeti diğerinden daha fazlaysa veya arasında bir dengesizlik var. E-postaların yalnızca% 0, 01'i spam ise veya yanlış e-postalar meşru e-postaların gelen kutusuna spam sızmasından daha kötüdür modelin en az% 50'sinin spam olabileceğini düşündüğü her şeyi etiketleme istenmeyen sonuçlara yol açabilir.

Karışıklık matrisi

Olasılık puanı gerçek değildir kesin referans olarak kabul edilir. İkili sınıflandırıcıdan alınan her çıkış için dört olası sonuç vardır. Spam sınıflandırıcı örneğinde, kesin doğruyu sütunlar halinde ve modelin tahminini satırlar halinde, aşağıdaki tabloda karmaşıklık matrisi, sonuç:

Gerçek pozitif Gerçek negatif
Tahmini pozitif Gerçek pozitif (TP): Spam bu e-posta doğru bir şekilde spam e-posta olarak sınıflandırıldı. Bunlar spam mesajlardır otomatik olarak spam klasörüne gönderilir. Yanlış pozitif (FP): Yanlış bir şekilde şu şekilde sınıflandırılmış spam olmayan bir e-posta: spam'e dokunun. Bunlar, gönderilen meşru e-postalar spam klasörüne düşmesini sağlayabilirsiniz.
Tahmini negatif Yanlış negatif (FN): Spam değil olarak sınıflandırılmış spam e-posta. Bunlar spam e-postayla yakalayıp gelen kutusuna girmesini sağlayabilirsiniz. Doğru negatif (TN): A spam değil e-posta adresi doğru bir şekilde spam değil olarak sınıflandırılmıştır. Bunlar, gönderilen meşru e-postalardır doğrudan gelen kutusuna gönderebilirsiniz.

Her bir satırdaki toplamın tüm tahmini pozitifleri (TP + FP) ve (geçerlilikten bağımsız olarak tahmini tüm negatif değerler) Her bir sütunu ise tüm gerçek pozitifleri (TP + FN) ve tüm gerçek negatifleri verir (FP + TN).

Gerçek pozitiflerin toplamı, gerçekleşen toplam değere yakın olmadığında negatif olursa veri kümesi dengesiz. Örnek bir görüntü kümesi binlerce bulut fotoğrafından İlgilendiğiniz nadir bulut türü, mesela volutus bulutları birkaç kez.