Doğrusal regresyon: Kayıp

Kayıp, bir modelin tahminlerinin ne kadar yanlış olduğunu açıklayan sayısal bir metriktir. Kayıp, modelin tahminleri ile gerçek etiketler arasındaki mesafeyi ölçer. Bir modeli eğitmenin amacı, kaybı mümkün olan en düşük değere indirerek en aza indirmektir.

Aşağıdaki resimde, kaybı veri noktalarından modele doğru çizilen oklarla görselleştirebilirsiniz. Oklar, modelin tahminlerinin gerçek değerlerden ne kadar uzak olduğunu gösterir.

Şekil 9. Kayıp çizgileri, veri noktalarını modele bağlar.

Şekil 9. Kayıp, gerçek değerden tahmin edilen değere kadar ölçülür.

Kayıp mesafesi

İstatistik ve makine öğrenimindeki kayıp, tahmin edilen ve gerçek değerler arasındaki farkı ölçer. Kayıp, yöne değil, değerler arasındaki mesafeye odaklanır. Örneğin, bir model 2 değerini tahmin ediyorsa ancak gerçek değer 5 ise kaybın negatif -3 TL (2-5=-3 TL) olması önemli değildir. Bunun yerine, değerler arasındaki mesafenin 3 TL olması önemlidir. Bu nedenle, kaybı hesaplayan tüm yöntemler işareti kaldırır.

İşareti kaldırmanın en yaygın iki yöntemi şunlardır:

  • Gerçek değer ile tahmin arasındaki farkın mutlak değerini alın.
  • Gerçek değer ile tahmin arasındaki farkın karesi.

Kayıp türleri

Doğrusal regresyonda, aşağıdaki tabloda açıklanan dört ana kayıp türü vardır.

Kayıp türü Tanım Denklem
L1 kaybı Tahmin edilen değerler ile gerçek değerler arasındaki farkın mutlak değerlerinin toplamı. $ ∑ | actual\ value - predicted\ value | $
Ortalama mutlak hata (MAE) Bir örnek grubundaki L1 kayıplarının ortalaması. $ \frac{1}{N} ∑ | actual\ value - predicted\ value | $
L2 kaybı Tahmin edilen değerler ile gerçek değerler arasındaki farkların karelerinin toplamı. $ ∑(actual\ value - predicted\ value)^2 $
Ortalama karesel hata (MSE) Bir örnek grubundaki L2 kayıplarının ortalaması. $ \frac{1}{N} ∑ (actual\ value - predicted\ value)^2 $

L1 kaybı ile L2 kaybı (veya MAE ile MSE) arasındaki işlevsel fark kare alma işlemidir. Tahmin ile etiket arasındaki fark büyük olduğunda, kare alma işlemi kaybı daha da büyütür. Fark küçük olduğunda (1'den az) kare alma işlemi, kaybı daha da küçük hale getirir.

Aynı anda birden fazla örnek işlenirken MAE veya MSE kullanılarak tüm örneklerdeki kayıpların ortalamasını almanızı öneririz.

Kayıp hesaplama örneği

Önceki en iyi uyum çizgisini kullanarak tek bir örnek için L2 kaybını hesaplayacağız. En iyi uyum çizgisinden ağırlık ve önyargı için aşağıdaki değerlere ulaştık:

  • $ \small{Ağırlık: -3,6} $
  • $ \small{Bias: 30} $

Model, 2.370 pound ağırlığındaki bir aracın 1 galon benzinle 21,5 mil gidebildiğini tahmin ediyorsa ancak araç aslında 1 galon benzinle 24 mil gidebiliyorsa L2 kaybını aşağıdaki gibi hesaplarız:

Değer Denklem Sonuç
Tahmin

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21,5}$
Gerçek değer $ \small{ label } $ $ \small{ 24 } $
L2 kaybı

$ \small{ (tahmin - gerçek\ değer)^2} $

$\small{ (21,5 - 24)^2 }$

$\small{6.25}$

Bu örnekte, tek bir veri noktası için L2 kaybı 6,25'tir.

Kaybetme seçme

MAE mi yoksa MSE mi kullanacağınıza karar vermek, veri kümesine ve belirli tahminleri işleme şeklinize bağlı olabilir. Bir veri kümesindeki özellik değerleri genellikle farklı bir aralık içindedir. Örneğin, arabalar genellikle 2.000 ila 5.000 pound ağırlığındadır ve 1 galon benzinle 8 ila 50 mil yol kat eder. 8.000 pound ağırlığındaki bir araba veya 1 galon benzinle 100 mil yol giden bir araba, tipik aralığın dışındadır ve aykırı olarak kabul edilir.

Aykırı değer, bir modelin tahminlerinin gerçek değerlerden ne kadar uzak olduğunu da ifade edebilir. Örneğin, 1.360 kg, tipik araba ağırlığı aralığındadır ve 100 km başına 6,4 litre, tipik yakıt verimliliği aralığındadır. Ancak 3.000 pound ağırlığındaki bir aracın 16,1 km/L yakıt tüketimi olacağını tahmin eden model, 3.000 pound ağırlığındaki bir aracın 18,2-20,4 km/L yakıt tüketimi olacağını tahmin ettiğinden, 16,1 km/L yakıt tüketimi olan 3.000 pound ağırlığındaki bir araç modelin tahmini açısından aykırı bir değerdir.

En iyi kayıp işlevini seçerken modelin aykırı değerleri nasıl ele almasını istediğinizi göz önünde bulundurun. Örneğin, MSE modeli aykırı değerlere daha fazla yaklaştırır, MAE ise bunu yapmaz. L2 kaybı, aykırı değerler için L1 kaybına kıyasla çok daha yüksek bir ceza uygular. Örneğin, aşağıdaki resimlerde MAE kullanılarak eğitilmiş bir model ve MSE kullanılarak eğitilmiş bir model gösterilmektedir. Kırmızı çizgi, tahmin yapmak için kullanılacak tamamen eğitilmiş bir modeli temsil eder. Aykırı değerler, MAE ile eğitilen modele kıyasla MSE ile eğitilen modele daha yakındır.

Şekil 10. Model, aykırı değerlere daha fazla ağırlık verir.

Şekil 10. MSE ile eğitilen bir model, modeli aykırı değerlere yaklaştırır.

Şekil 11. Model, aykırı değerlerden daha da uzaklaşır.

Şekil 11. MAE ile eğitilen bir model, aykırı değerlerden daha uzaktır.

Model ile veriler arasındaki ilişkiye dikkat edin:

  • MSE. Model, aykırı değerlere daha yakın ancak diğer veri noktalarının çoğundan daha uzaktır.

  • MAE. Model, aykırı değerlerden daha uzakta ancak diğer veri noktalarının çoğuna daha yakındır.

Öğrendiklerinizi test etme

Aşağıdaki iki grafiği ele alalım:

10 noktanın yer aldığı bir nokta grafiği.
      Noktaların 6'sından bir çizgi geçer. 2 nokta çizginin 1 birim üstünde, diğer 2 nokta ise çizginin 1 birim altındadır. 10 noktanın yer aldığı bir nokta grafiği. Noktaların 8'inden biri çizginin üzerindedir. 1 nokta çizginin 2 birim üstünde, diğer nokta ise çizginin 2 birim altındadır.
Önceki grafiklerde gösterilen iki veri kümesinden hangisinin Ortalama Kare Hata (MSE) değeri daha yüksek?
Soldaki veri kümesi.
Satırdaki altı örnek toplam 0 kayıp verir. Çizgiye dahil olmayan dört örnek, çizgiden çok uzak olmadığından, ofsetlerinin karesi bile düşük bir değer verir: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Sağdaki veri kümesi.
Satırdaki sekiz örnek toplam 0 kayıp sağlar. Ancak, yalnızca iki nokta çizginin dışında olsa da bu noktaların ikisi de, soldaki şekildeki aykırı noktaların iki katı kadar çizginin dışındadır. Kare kaybı bu farklılıkları artırır.Bu nedenle, ikilik bir ofset, birlik bir ofsetin dört katı kadar kayıp oluşturur: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$