Doğrusal regresyon

Bu modülde doğrusal regresyon kavramları tanıtılmaktadır.

Doğrusal regresyon, değişkenler arasındaki ilişkiyi bulmak için kullanılan bir istatistiksel tekniktir. ML bağlamında doğrusal regresyon, özellikler ile etiket arasındaki ilişkiyi bulur.

Örneğin, bir aracın ağırlığına göre yakıt verimliliğini (galon başına mil cinsinden) tahmin etmek istediğimizi ve aşağıdaki veri kümesine sahip olduğumuzu varsayalım:

1.000'ler cinsinden pound (özellik) Mil/galon (etiket)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4.42 14
2,37 24

Bu noktaları grafiğe yerleştirirsek aşağıdaki grafiği elde ederiz:

Şekil 1. Soldan sağa doğru aşağı doğru eğimli trendi gösteren veri noktaları.

Şekil 1. Araç ağırlığı (pound cinsinden) ve mil/galon derecelendirmesi. Araç ağırlaştıkça genelde galon başına mil değeri düşer.

Noktaların üzerinden en iyi uyan çizgiyi çizerek kendi modelimizi oluşturabiliriz:

Şekil 2. Modeli temsil eden, üzerinden en uygun çizginin çizildiği veri noktaları.

Şekil 2. Önceki şekildeki veriler üzerinden çizilen en uygun çizgi.

Doğrusal regresyon denklemi

Cebirsel terimlerle model, $ y = mx + b $ olarak tanımlanır.

  • $ y $, tahmin etmek istediğimiz değer olan galon başına mildir.
  • $ m $, doğrunun eğimidir.
  • $ x $, giriş değerimiz olan pound'dur.
  • $ b $, y kesme noktasıdır.

ML'de doğrusal regresyon modelinin denklemini aşağıdaki gibi yazarız:

$$ y' = b + w_1x_1 $$

Bu örnekte:

  • $ y' $, tahmin edilen etikettir (çıktı).
  • $ b $, modelin önyargısıdır. Yanlışlık, bir çizginin cebirsel denklemindeki y kesme noktasıyla aynı kavramdır. Yapay zeka alanında önyargı bazen $ w_0 $ olarak adlandırılır. Önyargı, modelin bir parametresidir ve eğitim sırasında hesaplanır.
  • $ w_1 $, özelliğin ağırlığı'dır. Ağırlık, bir çizginin cebirsel denklemindeki eğim ($ m $) ile aynı kavramdır. Ağırlık, modelin bir parametresidir ve eğitim sırasında hesaplanır.
  • $ x_1 $, giriş olan bir özelliktir.

Eğitim sırasında model, en iyi modeli oluşturan ağırlığı ve önyargıyı hesaplar.

Şekil 3. Her bileşenin amacıyla birlikte açıklanmış y' = b + w1x1 denklemi.

Şekil 3. Doğrusal bir modelin matematiksel gösterimi.

Örneğimizde, çizdiğimiz çizgiden ağırlığı ve yönü hesaplayacağız. Eğilim 30'dur (çizginin y ekseniyle kesiştiği yer) ve ağırlık -3,6'dır (çizginin eğimi). Model $ y' = 30 + (-3, 6)(x_1) $ olarak tanımlanır ve tahmin yapmak için kullanılabilir. Örneğin, bu model kullanılarak 1.800 kg ağırlığında bir aracın tahmini yakıt verimliliği 15,6 mil/galon olur.

Şekil 4. (4, 15,6) noktasının vurgulandığı, Şekil 2 ile aynı grafik.

Şekil 4. Model kullanılarak 4.000 pound ağırlığında bir aracın tahmini yakıt verimliliği 15,6 mil/galon olarak hesaplanır.

Birden fazla özelliği olan modeller

Bu bölümdeki örnekte yalnızca bir özellik (arabanın ağırlığı) kullanılsa da daha karmaşık bir model, her biri ayrı bir ağırlığa ($ w_1 $, $ w_2 $ vb.) sahip birden fazla özelliğe dayalı olabilir. Örneğin, beş özelliğe dayanan bir model aşağıdaki gibi yazılır:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Örneğin, yakıt tüketimini tahmin eden bir model ek olarak aşağıdaki gibi özellikler kullanabilir:

  • Motor hacmi
  • İvme
  • Silindir sayısı
  • Beygir gücü

Bu model aşağıdaki gibi yazılır:

Şekil 5. Beş özellik içeren doğrusal regresyon denklemi.

Şekil 5. Bir aracın litre başına kilometre puanını tahmin etmek için beş özelliğe sahip bir model.

Bu ek özelliklerden bazılarını grafik hâline getirdiğimizde, bunların da "litre başına kilometre" etiketiyle doğrusal bir ilişkiye sahip olduğunu görebiliriz:

Şekil 6. Hacim (cm3) ile mil/galon arasındaki negatif doğrusal ilişkiyi gösteren grafik.

Şekil 6. Bir aracın kübik santimetre cinsinden motor hacmi ve galon başına mil değeri. Bir aracın motoru büyüdükçe yakıt tüketimi genellikle azalır.

Şekil 7. Sıfırdan altmışa saniye cinsinden hızlanma, pozitif doğrusal bir ilişki gösteren galon başına mil cinsinden grafikte gösterilmiştir.

Şekil 7. Bir aracın hızlanma ve yakıt tüketimi değerleri. Bir aracın hızlanması ne kadar uzun sürerse yakıt tüketimi de o kadar artar.

Şekil 8. Negatif doğrusal bir ilişki gösteren, beygir gücünün galon başına mil ile grafiği.

Şekil 8. Bir aracın beygir gücü ve galon başına mil değeri. Bir aracın beygir gücü arttıkça genelde galon başına mil oranı düşer.

Alıştırma: Anladığınızdan emin olun

Doğrusal regresyon denkleminin hangi bölümleri eğitim sırasında güncellenir?
Yanlışlık ve ağırlıklar
Eğitim sırasında model, önyargıyı ve ağırlıkları günceller.
Tahmin
Tahminler eğitim sırasında güncellenmez.
Özellik değerleri
Özellik değerleri veri kümesinin bir parçası olduğundan eğitim sırasında güncellenmez.