Şurada belirtildiği gibi: Doğrusal regresyon modülü, hesaplama tahmin yanlılığı model veya eğitim verileriyle ilgili sorunları işaretleyebilen hızlı bir kontroldür teşvik edebilirsiniz.
Tahmin yanlılığı, bir modelin ortalama değeri ile tahminleri ve ortalama kesin referans etiketleri dışı verilerdir. Bir veri kümesi üzerinde eğitilen model Buradaki e-postaların% 5'i spam olduğundan ortalama olarak% 5'inin spam olduğunu sınıflandırdığı e-postalar spamdir. Başka bir deyişle, kesin referans veri kümesi 0, 05'tir ve modelin tahminlerinin ortalaması 0,05 olur. Bu durumda, modelde tahmin yanlılığı sıfırdır. / modelde başka sorunlar da olabilir.
Model bunun yerine bir e-postanın% 50'sinin spam olduğunu tahmin ederse eğitim veri kümesiyle ilgili bir sorun varsa, modelin bir örneğidir. Herhangi biri ikisi arasındaki önemli bir fark, modelin ön yargı var.
Tahmin yanlılığı aşağıdaki nedenlerden kaynaklanabilir:
- Eğitim seti için yanlı örnekleme dahil olmak üzere verilerdeki sapmalar veya gürültü
- Çok güçlü normalleştirme, modelin aşırı basitleştirildiği ve kaybedildiği anlamına gelir. biraz daha karmaşık
- Model eğitimi ardışık düzenindeki hatalar
- Modele sağlanan özellik grubunun görev için yetersiz olması