Eşikler ve karışıklık matrisi

Spam e-posta tespiti için mantıksal bir regresyon modeliniz olduğunu varsayalım. 0 ile 1 arasında bir değeri tahmin eder. Bu, belirli bir değerin spam'dir. 0,50’lik bir tahmin, e-postanın 0,75 olan bir tahmin, e-postanın spam olma ihtimalinin% 75 olduğunu, vb.

Spam filtreleri filtrelemek için bu modeli bir e-posta uygulamasına dağıtmak istiyorsunuz: ayrı bir posta klasöründe bulabilirsiniz. Ama bunu yapmak için modelin ham verilerini sayısal çıktı (ör. 0.75) şu iki kategoriden birine ayrılır: "spam" veya " gönderin."

Bu dönüşümü elde etmek için, güven seviyesi olarak adlandırılan bir eşik olasılığı sınıflandırma eşiğine uyduğundan emin olun. Olasılıkların eşik değerinin üzerinde olduğu örnekler, daha sonra olumlu sınıfa, (burada, spam) test ettiğiniz sınıfla ilgilidir. Daha düşük olan örnekler olasılık negatif sınıfa atanırsa alternatif sınıf (burada, not spam) yer alır.

Sınıflandırma eşiği hakkında daha fazla bilgi için burayı tıklayın

Tahmin edilen puan bu değere eşit olduğunda ne olacağını merak ediyor olabilirsiniz. (örneğin, puan 0,5 puandır.) sınıflandırma eşiği de 0,5'tir)? Bu destek kaydı için sevkiyata hazırlık sınıflandırma için seçilen uygulamaya bağlıdır. modeli. Örneğin, Keras puan ve eşik, negatif sınıfa karşılık gelecek şekilde eşittir, ancak diğer araçlar/çerçeveler bu durumu ele alabilir değiştirebilirsiniz.

Örneğin, modelin bir e-postayı 0, 99 olarak puanladığını ve bu e-posta adresinin bu e-postanın spam olma olasılığı% 99, diğer bir e-posta ise olduğunu varsayarsak iletinin spam olma ihtimali% 51'dir. Örneğin olarak 0, 5 olarak sınıflandırıldığında model her iki e-postayı da spam'e dokunun. Eşiği 0,95 olarak belirlerseniz yalnızca 0,99 puan alan e-posta spam olarak sınıflandırılamaz.

0, 5 kolay bir eşik gibi görünse de bir yanlış sınıflandırma türünün maliyeti diğerinden daha fazlaysa veya arasında bir dengesizlik var. E-postaların yalnızca% 0, 01'i spam ise veya yanlış e-postalar meşru e-postaların gelen kutusuna spam sızmasından daha kötüdür modelin en az% 50'sinin spam olabileceğini düşündüğü her şeyi etiketleme istenmeyen sonuçlara yol açabilir.

Karışıklık matrisi

Olasılık puanı gerçek değildir kesin referans olarak kabul edilir. İkili sınıflandırıcıdan alınan her çıkış için dört olası sonuç vardır. Spam sınıflandırıcı örneğinde, kesin doğruyu sütunlar halinde ve modelin tahminini satırlar halinde, aşağıdaki tabloda karmaşıklık matrisi, sonuç:

Gerçek pozitif Gerçek negatif
Tahmini pozitif Gerçek pozitif (TP): Spam bu e-posta doğru bir şekilde spam e-posta olarak sınıflandırıldı. Bunlar spam mesajlardır otomatik olarak spam klasörüne gönderilir. Yanlış pozitif (FP): Yanlış bir şekilde şu şekilde sınıflandırılmış spam olmayan bir e-posta: spam'e dokunun. Bunlar, gönderilen meşru e-postalar spam klasörüne düşmesini sağlayabilirsiniz.
Tahmini negatif Yanlış negatif (FN): Spam değil olarak sınıflandırılmış spam e-posta. Bunlar spam e-postayla yakalayıp gelen kutusuna girmesini sağlayabilirsiniz. Doğru negatif (TN): A spam değil e-posta adresi doğru bir şekilde spam değil olarak sınıflandırılmıştır. Bunlar, gönderilen meşru e-postalardır doğrudan gelen kutusuna gönderebilirsiniz.

Her bir satırdaki toplamın tüm tahmini pozitifleri (TP + FP) ve (geçerlilikten bağımsız olarak tahmini tüm negatif değerler) Her bir sütunu ise tüm gerçek pozitifleri (TP + FN) ve tüm gerçek negatifleri verir (FP + TN).

Gerçek pozitiflerin toplamı, gerçekleşen toplam değere yakın olmadığında negatif olursa veri kümesi dengesiz. Örnek bir görüntü kümesi binlerce bulut fotoğrafından İlgilendiğiniz nadir bulut türü, mesela volutus bulutları birkaç kez.

Eşiğin doğru ve yanlış pozitif ve negatif değerler üzerindeki etkisi

Farklı eşikler, genellikle farklı sayıda doğru ve yanlış değerinin belirlenmesine neden olur. hem doğru hem de yanlış negatif değerleri. Bunun nedeni aşağıdaki videoda öğrenin.

Eşiği kendiniz değiştirmeyi deneyin.

Bu widget, üç oyuncak veri kümesi içerir:

  • Ayrı: Olumlu örnekler ve olumsuz örneklerin genellikle diğer örneklere kıyasla daha yüksek puanlara sahip olduğundan, olumsuz örnekler verilebilir.
  • Birçok pozitif örneğin daha düşük puanlara sahip olduğu ayrılmamış olumsuz örneklerdir ve pek çok negatif örneğin puanı, olumlu örnekler sunar.
  • Karıştırılmış: Pozitif sınıfın yalnızca birkaç örneğini içerir.

Öğrendiklerinizi sınayın

1. Kimlik avı veya kötü amaçlı yazılım sınıflandırma kimlik avı ve kötü amaçlı yazılım web siteleri 1 (doğru) etiketli sınıfta ve zararsız web siteleri 0 (false) etiketli sınıftır. Bu model meşru bir web sitesini yanlışlıkla kötü amaçlı yazılım olarak sınıflandırmak. Buna ne denir?
Yanlış pozitif
Olumsuz bir örnek (meşru site) yanlış pozitif bir örnek olarak sınıflandırılır (kötü amaçlı yazılım sitesi).
Gerçek pozitif
Doğru pozitif, kötü amaçlı yazılım sitesini doğru olarak ifade eder kötü amaçlı yazılım olarak sınıflandırılmıştır.
Yanlış negatif
Yanlış negatif, yanlış bir şekilde kötü amaçlı bir site anlamına gelir yasal bir site olarak sınıflandırılmıştı.
Doğru negatif
Doğru negatif, geçerli bir site demektir yasal bir site olarak sınıflandırılmıştı.
2. Genel olarak, nasıl artırılır? Peki ya gerçek pozitifler? Deneme yukarıdaki kaydırma çubuğunu kullanın.
Hem doğru hem de yanlış pozitif değerleri azalır.
Eşik yükseldikçe modelin, dönüşüm değeri daha az pozitif sonuç verir. Hem doğru hem yanlış. İçinde 0,9999 değerine sahip bir e-posta, yalnızca bu da son derece normal olduğu anlamına gelir. meşru bir e-postayı yanlış etiketlemez ancak bu e-postayı kaçırabilir spam e-posta.
Hem doğru hem de yanlış pozitif değerleri artar.
Yukarıdaki kaydırma çubuğunu kullanarak eşiği 0,1'e ayarlamayı deneyin. 0,9'a sürükleyebilirim. Yanlış pozitif sayısına ne olur? ve doğru pozitifler nasıl?
Gerçek pozitifler artar. Yanlış pozitifler azalır.
Yukarıdaki kaydırma çubuğunu kullanarak eşiği 0,1'e ayarlamayı deneyin. 0,9'a sürükleyebilirim. Yanlış pozitif sayısına ne olur? ve doğru pozitifler nasıl?
3. Genel olarak, nasıl artırılır? Peki ya gerçek negatifler? Deneme yukarıdaki kaydırma çubuğunu kullanın.
Hem doğru hem de yanlış negatif değerleri artar.
Eşik yükseldikçe modelin, dönüşüm değeri daha fazla negatif sonuç görebilirsiniz. Çok yüksek bir eşikte spam olmayan ve spam olmayan neredeyse tüm e-postalar spam değil olarak sınıflandırılır.
Hem doğru hem de yanlış negatif sayısı azalır.
Yukarıdaki kaydırma çubuğunu kullanarak eşiği 0,1'e ayarlamayı deneyin. 0,9'a sürükleyebilirim. Yanlış negatiflerin sayısına ne olur? ve doğru negatifler nasıl?
Doğru negatifler artar. Yanlış negatifler azalır.
Yukarıdaki kaydırma çubuğunu kullanarak eşiği 0,1'e ayarlamayı deneyin. 0,9'a sürükleyebilirim. Yanlış negatiflerin sayısına ne olur? ve doğru negatifler nasıl?
.