Bu modülde doğrusal regresyon kavramları tanıtılmaktadır.
Doğrusal regresyon, değişkenler arasındaki ilişkiyi bulmak için kullanılan bir istatistiksel tekniktir. ML bağlamında doğrusal regresyon, özellikler ile etiket arasındaki ilişkiyi bulur.
Örneğin, bir aracın ağırlığına göre yakıt verimliliğini (galon başına mil cinsinden) tahmin etmek istediğimizi ve aşağıdaki veri kümesine sahip olduğumuzu varsayalım:
1.000'ler cinsinden pound (özellik) | Mil/galon (etiket) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4.42 | 14 |
2,37 | 24 |
Bu noktaları grafiğe yerleştirirsek aşağıdaki grafiği elde ederiz:
Şekil 1. Araç ağırlığı (pound cinsinden) ve mil/galon derecelendirmesi. Araç ağırlaştıkça genelde galon başına mil değeri düşer.
Noktaların üzerinden en iyi uyan çizgiyi çizerek kendi modelimizi oluşturabiliriz:
Şekil 2. Önceki şekildeki veriler üzerinden çizilen en uygun çizgi.
Doğrusal regresyon denklemi
Cebirsel terimlerle model, $ y = mx + b $ olarak tanımlanır.
- $ y $, tahmin etmek istediğimiz değer olan galon başına mildir.
- $ m $, doğrunun eğimidir.
- $ x $, giriş değerimiz olan pound'dur.
- $ b $, y kesme noktasıdır.
ML'de doğrusal regresyon modelinin denklemini aşağıdaki gibi yazarız:
Bu örnekte:
- $ y' $, tahmin edilen etikettir (çıktı).
- $ b $, modelin önyargısıdır. Yanlışlık, bir çizginin cebirsel denklemindeki y kesme noktasıyla aynı kavramdır. Yapay zeka alanında önyargı bazen $ w_0 $ olarak adlandırılır. Önyargı, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ w_1 $, özelliğin ağırlığı'dır. Ağırlık, bir çizginin cebirsel denklemindeki eğim ($ m $) ile aynı kavramdır. Ağırlık, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ x_1 $, giriş olan bir özelliktir.
Eğitim sırasında model, en iyi modeli oluşturan ağırlığı ve önyargıyı hesaplar.
Şekil 3. Doğrusal bir modelin matematiksel gösterimi.
Örneğimizde, çizdiğimiz çizgiden ağırlığı ve yönü hesaplayacağız. Eğilim 30'dur (çizginin y ekseniyle kesiştiği yer) ve ağırlık -3,6'dır (çizginin eğimi). Model $ y' = 30 + (-3, 6)(x_1) $ olarak tanımlanır ve tahmin yapmak için kullanılabilir. Örneğin, bu model kullanılarak 1.800 kg ağırlığında bir aracın tahmini yakıt verimliliği 15,6 mil/galon olur.
Şekil 4. Model kullanılarak 4.000 pound ağırlığında bir aracın tahmini yakıt verimliliği 15,6 mil/galon olarak hesaplanır.
Birden fazla özelliği olan modeller
Bu bölümdeki örnekte yalnızca bir özellik (arabanın ağırlığı) kullanılsa da daha karmaşık bir model, her biri ayrı bir ağırlığa ($ w_1 $, $ w_2 $ vb.) sahip birden fazla özelliğe dayalı olabilir. Örneğin, beş özelliğe dayanan bir model aşağıdaki gibi yazılır:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Örneğin, yakıt tüketimini tahmin eden bir model ek olarak aşağıdaki gibi özellikler kullanabilir:
- Motor hacmi
- İvme
- Silindir sayısı
- Beygir gücü
Bu model aşağıdaki gibi yazılır:
Şekil 5. Bir aracın litre başına kilometre puanını tahmin etmek için beş özelliğe sahip bir model.
Bu ek özelliklerden bazılarını grafik hâline getirdiğimizde, bunların da "litre başına kilometre" etiketiyle doğrusal bir ilişkiye sahip olduğunu görebiliriz:
Şekil 6. Bir aracın kübik santimetre cinsinden motor hacmi ve galon başına mil değeri. Bir aracın motoru büyüdükçe yakıt tüketimi genellikle azalır.
Şekil 7. Bir aracın hızlanma ve yakıt tüketimi değerleri. Bir aracın hızlanması ne kadar uzun sürerse yakıt tüketimi de o kadar artar.
Şekil 8. Bir aracın beygir gücü ve galon başına mil değeri. Bir aracın beygir gücü arttıkça genelde galon başına mil oranı düşer.