Sınıflandırma: Ön yargı

Lojistik regresyon tahminleri tarafsız olmamalıdır. Yani:

"tahmininin ortalaması"ve"Gözlemlerin ortalaması"

Tahmin ön yargısı, bu iki ortalamanın ne kadar uzak olduğunu ölçen bir miktardır. Yani:

$$\text{prediction bias} = \text{average of predictions} - \text{average of labels in data set}$$

Sıfır olmayan bir tahmin ön yargısı, modelin pozitif etiketlerin ne sıklıkla oluştuğuyla ilgili yanlış olduğunu gösterdiğinden modelinizin bir yerinde bir hata olduğunu gösterir.

Örneğin, tüm e-postaların ortalama% 1'inin spam olduğunu bildiğimizi varsayalım. Belirli bir e-posta hakkında hiçbir şey bilmiyorsak, e-postanın% 1'in spam olabileceğini tahmin etmeliyiz. Benzer şekilde, iyi bir spam modeli de e-postaların spam olma olasılığının ortalama% 1 olduğunu tahmin etmelidir. (Diğer bir deyişle, her bir e-postanın spam olma olasılığını tahmin ettiğimizde, elde edilen sonuç %1 olmalıdır.) Bunun yerine, modelin ortalama tahmininin spam olma olasılığı% 20 ise tahmin sapmasını gösterdiği sonucuna varabiliriz.

Tahmin sapmasının olası temel nedenleri şunlardır:

  • Eksik özellik grubu
  • Gürültülü veri kümesi
  • Hatalı hat
  • Ön yargılı eğitim örneği
  • Aşırı güçlü normalleştirme

Öğrenilen modeli işledikten sonra tahmin modelinin önüne geçmek için modelinizin çıkışını düzenleyen bir kalibrasyon katmanı ekleyerek tahmin sapmasını düzeltme eğiliminde olabilirsiniz. Örneğin, modelinizde +% 3'lük bir eğilim varsa ortalama tahmini %3'e düşüren bir kalibrasyon katmanı ekleyebilirsiniz. Ancak kalibrasyon katmanı eklemek aşağıdaki nedenlerle kötü bir fikirdir:

  • Nedeni yerine belirtiyi düzeltiyorsunuz.
  • Şu anda güncel tutmanız gereken, daha hassas bir sistem derlediniz.

Mümkünse kalibrasyon katmanlarından kaçının. Kalibrasyon katmanlarını kullanan projeler, bunlara her zaman bağımlı hale gelir. Bunun için, kalibrasyon katmanları kullanarak tüm model sin'lerinin düzeltilmesi gerekir. Sonuç olarak, kalibrasyon katmanlarının korunması bir kabus haline gelebilir.

Gruplama ve Tahmin Taraflı Olma

Lojistik regresyon, 0 ile 1 arasındaki bir değeri tahmin eder. Bununla birlikte, etiketlenen tüm örnekler tam olarak 0 (yani "spam değil" değil) veya tam olarak 1 (örneğin "&" spam" spam) anlamına gelir. Bu nedenle, tahmin sapmasını incelerken tek bir örneği temel alarak tahmin sapmasını doğru bir şekilde belirleyemezsiniz. Tahmin yanlılığını örneklerden oluşan bir pakette incelemeniz gerekir. Diğer bir deyişle, lojistik regresyon için tahmin ön yargısı, yalnızca tahmin edilen bir değeri (örneğin 0,392) gözlemlenen değerlerle (ör. 0,394) karşılaştırabilmek için yeterli sayıda örneği gruplandırırken anlamlıdır.

Aşağıdaki şekillerde paketler oluşturabilirsiniz:

  • Hedef tahminlerini doğrusal olarak ayırma.
  • Kuvars oluşturma.

Belirli bir modelde kullanılan aşağıdaki kalibrasyon grafiğini inceleyin. Her nokta,1.000 değerden oluşan bir grubu temsil eder. Baltalar aşağıdaki anlamlara gelir:

  • X ekseni, modelin bu paket için tahmin ettiği değerlerin ortalamasını gösterir.
  • Y ekseni, bu paket için veri kümesindeki değerlerin gerçek ortalamasını temsil eder.

İki eksen de logaritmik terazidir.

X ekseni Tahmin; y ekseni ise Etikettir. Tahminin orta ve yüksek değerleri için tahmin ön yargısı ihmal edilebilir. Düşük tahmin değerleri için tahmin sapması nispeten yüksektir.

8. Şekil. Tahmin ağırlıklandırma eğrisi (logaritmik ölçekler)

Modelin yalnızca bir kısmı için tahminler neden bu kadar kötü? Aşağıda birkaç olasılık belirtilmiştir:

  • Eğitim seti, veri alanının belirli alt kümelerini yeterince temsil etmiyor.
  • Veri kümesinin bazı alt kümeleri diğerlerinden daha gürültülüdür.
  • Model aşırı normalleştirilmiş. (lambda değerini azaltmayı düşünebilirsiniz.)