Doğrusal regresyon

Bu modülde doğrusal regresyon kavramları tanıtılmaktadır.

Doğrusal regresyon, değişkenler arasındaki ilişkiyi bulmak için kullanılan bir istatistiksel tekniktir. Doğrusal regresyon, makine öğrenimi bağlamında özellikler ile etiket arasındaki ilişkiyi bulur.

Örneğin, bir arabanın ağırlığına göre galon başına mil cinsinden yakıt verimliliğini tahmin etmek istediğimizi ve aşağıdaki veri kümesine sahip olduğumuzu varsayalım:

Binlerce sterlin (özellik)	Mil/galon (etiket)
3,5	18
3,69	15
3,44	18
3,43	16
4,34	15
4,42	14
2,37	24

Bu noktaları grafiğe döktüğümüzde aşağıdaki grafiği elde ederiz:

1. şekil Soldan sağa doğru eğimi aşağı olan trendi gösteren veri noktaları.

Şekil 1. Aracın ağırlığı (pound cinsinden) ve galon başına mil oranı. Bir araba ağırlaştıkça galon başına mil derecesi genellikle düşer.

Noktalardan en iyi uyum çizgisini geçirerek kendi modelimizi oluşturabiliriz:

2. şekil. Modeli temsil eden, içinden en uygun çizginin geçtiği veri noktaları.

Şekil 2. Önceki şekildeki verilerden geçen en uygun çizgi.

Doğrusal regresyon denklemi

Cebirsel olarak model, $ y = mx + b $ şeklinde tanımlanır. Burada:

$ y $, galon başına mil cinsinden değerdir. Tahmin etmek istediğimiz değer budur.
$ m $, doğrunun eğimidir.
$ x $ bizim giriş değerimiz olan sterlin cinsindendir.
$ b $ y eksenini kestiği noktadır.

Makine öğreniminde, doğrusal regresyon modelinin denklemini aşağıdaki gibi yazarız:

$$ y' = b + w_1x_1 $$

Bu örnekte:

$ y' $ tahmin edilen etikettir (çıktı).
$ b $, modelin önyargısıdır. Önyargı, bir doğrunun cebirsel denklemindeki y eksenini kestiği nokta ile aynı kavramdır. Makine öğreniminde, önyargı bazen $ w_0 $ olarak adlandırılır. Önyargı, modelin bir parametresidir ve eğitim sırasında hesaplanır.
$ w_1 $, özelliğin ağırlığıdır. Ağırlık, bir doğrunun cebirsel denklemindeki eğim $ m $ ile aynı kavramdır. Ağırlık, modelin bir parametresidir ve eğitim sırasında hesaplanır.
$ x_1 $ bir özelliktir (giriş).

Eğitim sırasında model, en iyi modeli üreten ağırlığı ve önyargıyı hesaplar.

3. şekil Her bileşenin amacının belirtildiği y' = b + w1x1 denklemi.

Şekil 3. Doğrusal modelin matematiksel gösterimi.

Örneğimizde, çizdiğimiz çizgiden ağırlığı ve önyargıyı hesaplıyoruz. Eğilim 34 (doğrunun y eksenini kestiği nokta), ağırlık ise -4,6'dır (doğrunun eğimi). Model $ y' = 34 + (-4.6)(x_1) $ olarak tanımlanır ve tahmin yapmak için kullanılabilir. Örneğin, bu modeli kullanarak 1.800 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olacağı tahmin edilebilir.

4. şekil Şekil 2 ile aynı grafik, (4, 15,6) noktası vurgulanmış.

Şekil 4. Modele göre, 1.800 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olması bekleniyor.

Birden fazla özelliği olan modeller

Bu bölümdeki örnekte yalnızca bir özellik (arabanın ağırlığı) kullanılsa da daha karmaşık bir model, her biri ayrı bir ağırlığa ($ w_1 $, $ w_2 $ vb.) sahip birden fazla özelliğe dayanabilir. Örneğin, beş özelliğe dayanan bir model aşağıdaki gibi yazılır:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Örneğin, yakıt verimliliğini tahmin eden bir model, aşağıdaki gibi özellikleri de kullanabilir:

Motor hacmi
İvme
Silindir sayısı
Beygir gücü

Bu model aşağıdaki gibi yazılır:

5. şekil Beş özellikli doğrusal regresyon denklemi.

Şekil 5. Bir otomobilin galon başına mil derecesini tahmin etmek için beş özelliğe sahip bir model.

Bu ek özelliklerden birkaçını grafiğe döktüğümüzde, bunların da etiketle doğrusal bir ilişkisi olduğunu görebiliriz (galon başına mil):

6. şekil Santimetreküp cinsinden hacim, galon başına mil cinsinden yakıt tüketimiyle karşılaştırıldığında negatif doğrusal ilişki gösteren bir grafikte gösterilir.

Şekil 6. Bir arabanın santimetreküp cinsinden motor hacmi ve galon başına mil cinsinden yakıt tüketimi. Bir arabanın motoru büyüdükçe galon başına mil değeri genellikle düşer.

Şekil 7. Sıfırdan altmışa saniyeler içinde hızlanma, galon başına mil cinsinden grafiklenerek pozitif doğrusal ilişki gösteriliyor.

Şekil 7 Bir arabanın hızlanması ve galon başına mil derecesi. Bir arabanın hızlanması daha uzun sürdüğünde, galon başına mil oranı genellikle artar.

Alıştırma: Anladıklarınızı kontrol edin

Eğitim sırasında doğrusal regresyon denkleminin hangi kısımları güncellenir?

Önyargı ve ağırlıklar

Eğitim sırasında model, önyargıyı ve ağırlıkları günceller.

Tahmin

Tahminler eğitim sırasında güncellenmez.

Özellik değerleri

Özellik değerleri veri kümesinin bir parçası olduğundan eğitim sırasında güncellenmez.

Egzersizler

Kaybetme (10 dk.)