Regresi linear

Modul ini memperkenalkan konsep regresi linear.

Regresi linear adalah teknik statistik yang digunakan untuk menemukan hubungan antarvariabel. Dalam ML Dalam konteks, regresi linear menemukan hubungan antara fitur dan label.

Misalnya, kita ingin memprediksi efisiensi bahan bakar mobil dalam mil per galon berdasarkan berat mobil, dan kita memiliki {i>dataset<i} berikut:

Pound dalam 1000-an (fitur) Mil per galon (label)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Jika kita memetakan poin-poin ini, kita akan mendapatkan grafik berikut:

Gambar 1. Titik data menunjukkan tren miring ke bawah dari kiri ke kanan.

Gambar 1. Berat mobil (dalam pon) versus peringkat mil per galon. Sebagai seorang mobil menjadi lebih berat, peringkat mil per galonnya biasanya menurun.

Kita dapat membuat model sendiri dengan menggambar garis yang paling sesuai melalui titik-titik:

Gambar 2. Titik data dengan garis yang paling pas digambar melaluinya yang mewakili model.

Gambar 2. Garis yang paling sesuai yang digambar melalui data dari gambar sebelumnya.

Persamaan regresi linear

Dalam istilah aljabar, model akan didefinisikan sebagai $ y = mx + b $, di mana

  • $ y $ adalah mil per galon—nilai yang ingin kita prediksi.
  • $ m $ adalah kemiringan garis.
  • $ x $ adalah pound—nilai input kita.
  • $ b $ adalah titik potong y.

Dalam ML, kita menulis persamaan untuk model regresi linear sebagai berikut:

$$ y' = b + w_1x_1 $$

dalam hal ini:

  • $ y' $ adalah label yang diprediksi—output-nya.
  • $ b $ adalah bias model. Bias adalah konsep yang sama dengan titik potong y dalam rumus aljabar persamaan untuk garis. Dalam ML, bias kadang-kadang disebut sebagai $ w_0 $. Bias merupakan parameter model dan dihitung selama pelatihan.
  • $ w_1 $ adalah bobot dari aplikasi baru. Bobot adalah konsep yang sama dengan kemiringan $ m $ dalam aljabar persamaan untuk garis. Berat adalah parameter model dan yang dihitung selama pelatihan.
  • $ x_1 $ adalah fitur— input teks.

Selama pelatihan, model menghitung bobot dan bias yang menghasilkan model transformer.

Gambar 3. Persamaan y&#39; = b + w1x1, dengan setiap komponen dianotasi dengan tujuannya.

Gambar 3. Representasi matematika dari model linear.

Dalam contoh ini, kita akan menghitung bobot dan bias dari garis yang kita gambar. Tujuan bias adalah 30 (di mana garis berpotongan dengan sumbu y), dan bobotnya -3,6 ( kemiringan garis). Model ini akan didefinisikan sebagai $ y' = 30 + (-3,6)(x_1) $, dan kita bisa menggunakannya untuk membuat prediksi. Misalnya, dengan menggunakan model ini, Mobil seberat 4.000 pon akan memiliki efisiensi bahan bakar yang diperkirakan sebesar 15,6 mil per galon.

Gambar 4. Grafik yang sama seperti Gambar 2, dengan titik (4, 15.6) disorot.

Gambar 4. Dengan menggunakan model, sebuah mobil seberat 4.000 pon memiliki prediksi efisiensi bahan bakar 15,6 mil per galon.

Model dengan berbagai fitur

Meskipun contoh di bagian ini hanya menggunakan satu fitur—ketinggian model yang lebih canggih mungkin mengandalkan beberapa fitur, masing-masing memiliki bobot terpisah ($ w_1 $, $ w_2 $, dll.). Misalnya, sebuah model yang bergantung pada lima fitur akan ditulis sebagai berikut:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Misalnya, model yang memprediksi jarak tempuh bensin juga dapat menggunakan fitur seperti berikut:

  • Perpindahan mesin
  • Akselerasi
  • Jumlah silinder
  • Daya kuda

Model ini akan ditulis sebagai berikut:

Gambar 5. Persamaan regresi linear dengan lima fitur.

Gambar 5. Model dengan lima fitur untuk memprediksi mil per galon mobil rating.

Dengan membuat grafik dari beberapa fitur tambahan ini, kita dapat melihat bahwa mereka juga memiliki hubungan linear ke label, mil per galon:

Gambar 6. Perpindahan dalam sentimeter kubik yang digambarkan terhadap mil per galon menunjukkan hubungan linear negatif.

Gambar 6. Perpindahan mobil dalam sentimeter kubik dan mil per galonnya rating. Saat mesin mobil semakin besar, peringkat mil per galon umumnya menurun.

Gambar 7. Akselerasi dari nol hingga enam puluh dalam detik yang dipetakan terhadap mil per galon menunjukkan hubungan linear positif.

Gambar 7. Akselerasi mobil dan rating mil per galonnya. Sebagai akselerasi membutuhkan waktu lebih lama, peringkat mil per galon biasanya akan meningkat.

Gambar 8. Tenaga kuda yang grafik terhadap mil per galon menunjukkan hubungan linear negatif.

Gambar 8. Daya kuda mobil dan rating mil per galonnya. Sebagai tenaga kuda meningkat, peringkat mil per galon umumnya menurun.

Latihan: Memeriksa pemahaman Anda

Bagian mana dari persamaan regresi linear yang diperbarui selama pelatihan?
Bias dan bobot
Selama pelatihan, model memperbarui bias dan bobot berdasarkan kerugian.
Prediksi
Prediksi tidak diperbarui selama pelatihan.
Nilai fitur
Nilai fitur adalah bagian dari set data sehingga tidak diperbarui selama pelatihan.