Spam e-posta tespiti için mantıksal bir regresyon modeliniz olduğunu varsayalım. 0 ile 1 arasında bir değeri tahmin eder. Bu, belirli bir değerin spam'dir. 0,50’lik bir tahmin, e-postanın 0,75 olan bir tahmin, e-postanın spam olma ihtimalinin% 75 olduğunu, vb.
Spam filtreleri filtrelemek için bu modeli bir e-posta uygulamasına dağıtmak istiyorsunuz:
ayrı bir posta klasöründe bulabilirsiniz. Ama bunu yapmak için modelin ham verilerini
sayısal çıktı (ör. 0.75
) şu iki kategoriden birine ayrılır: "spam" veya "
gönderin."
Bu dönüşümü elde etmek için, güven seviyesi olarak adlandırılan bir eşik olasılığı
sınıflandırma eşiğine uyduğundan emin olun.
Olasılıkların eşik değerinin üzerinde olduğu örnekler, daha sonra
olumlu sınıfa,
(burada, spam
) test ettiğiniz sınıfla ilgilidir. Daha düşük olan örnekler
olasılık negatif sınıfa atanırsa
alternatif sınıf (burada, not spam
) yer alır.
Sınıflandırma eşiği hakkında daha fazla bilgi için burayı tıklayın
Tahmin edilen puan bu değere eşit olduğunda ne olacağını merak ediyor olabilirsiniz. (örneğin, puan 0,5 puandır.) sınıflandırma eşiği de 0,5'tir)? Bu destek kaydı için sevkiyata hazırlık sınıflandırma için seçilen uygulamaya bağlıdır. modeli. Örneğin, Keras puan ve eşik, negatif sınıfa karşılık gelecek şekilde eşittir, ancak diğer araçlar/çerçeveler bu durumu ele alabilir değiştirebilirsiniz.
Örneğin, modelin bir e-postayı 0, 99 olarak puanladığını ve bu e-posta adresinin bu e-postanın spam olma olasılığı% 99, diğer bir e-posta ise olduğunu varsayarsak iletinin spam olma ihtimali% 51'dir. Örneğin olarak 0, 5 olarak sınıflandırıldığında model her iki e-postayı da spam'e dokunun. Eşiği 0,95 olarak belirlerseniz yalnızca 0,99 puan alan e-posta spam olarak sınıflandırılamaz.
0, 5 kolay bir eşik gibi görünse de bir yanlış sınıflandırma türünün maliyeti diğerinden daha fazlaysa veya arasında bir dengesizlik var. E-postaların yalnızca% 0, 01'i spam ise veya yanlış e-postalar meşru e-postaların gelen kutusuna spam sızmasından daha kötüdür modelin en az% 50'sinin spam olabileceğini düşündüğü her şeyi etiketleme istenmeyen sonuçlara yol açabilir.
Karışıklık matrisi
Olasılık puanı gerçek değildir kesin referans olarak kabul edilir. İkili sınıflandırıcıdan alınan her çıkış için dört olası sonuç vardır. Spam sınıflandırıcı örneğinde, kesin doğruyu sütunlar halinde ve modelin tahminini satırlar halinde, aşağıdaki tabloda karmaşıklık matrisi, sonuç:
Gerçek pozitif | Gerçek negatif | |
---|---|---|
Tahmini pozitif | Gerçek pozitif (TP): Spam bu e-posta doğru bir şekilde spam e-posta olarak sınıflandırıldı. Bunlar spam mesajlardır otomatik olarak spam klasörüne gönderilir. | Yanlış pozitif (FP): Yanlış bir şekilde şu şekilde sınıflandırılmış spam olmayan bir e-posta: spam'e dokunun. Bunlar, gönderilen meşru e-postalar spam klasörüne düşmesini sağlayabilirsiniz. |
Tahmini negatif | Yanlış negatif (FN): Spam değil olarak sınıflandırılmış spam e-posta. Bunlar spam e-postayla yakalayıp gelen kutusuna girmesini sağlayabilirsiniz. | Doğru negatif (TN): A spam değil e-posta adresi doğru bir şekilde spam değil olarak sınıflandırılmıştır. Bunlar, gönderilen meşru e-postalardır doğrudan gelen kutusuna gönderebilirsiniz. |
Her bir satırdaki toplamın tüm tahmini pozitifleri (TP + FP) ve (geçerlilikten bağımsız olarak tahmini tüm negatif değerler) Her bir sütunu ise tüm gerçek pozitifleri (TP + FN) ve tüm gerçek negatifleri verir (FP + TN).
Gerçek pozitiflerin toplamı, gerçekleşen toplam değere yakın olmadığında negatif olursa veri kümesi dengesiz. Örnek bir görüntü kümesi binlerce bulut fotoğrafından İlgilendiğiniz nadir bulut türü, mesela volutus bulutları birkaç kez.
Eşiğin doğru ve yanlış pozitif ve negatif değerler üzerindeki etkisi
Farklı eşikler, genellikle farklı sayıda doğru ve yanlış değerinin belirlenmesine neden olur. hem doğru hem de yanlış negatif değerleri. Bunun nedeni aşağıdaki videoda öğrenin.
Eşiği kendiniz değiştirmeyi deneyin.
Bu widget, üç oyuncak veri kümesi içerir:
- Ayrı: Olumlu örnekler ve olumsuz örneklerin genellikle diğer örneklere kıyasla daha yüksek puanlara sahip olduğundan, olumsuz örnekler verilebilir.
- Birçok pozitif örneğin daha düşük puanlara sahip olduğu ayrılmamış olumsuz örneklerdir ve pek çok negatif örneğin puanı, olumlu örnekler sunar.
- Karıştırılmış: Pozitif sınıfın yalnızca birkaç örneğini içerir.