Regresi linier

Modul ini memperkenalkan konsep regresi linear.

Regresi linear adalah teknik statistik yang digunakan untuk menemukan hubungan antarvariabel. Dalam konteks ML, regresi linear menemukan hubungan antara fitur dan label.

Misalnya, kita ingin memprediksi efisiensi bahan bakar mobil dalam mil per galon berdasarkan berat mobil, dan kita memiliki set data berikut:

Pound dalam ribuan (fitur) Mil per galon (label)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Jika kita memetakan titik-titik ini, kita akan mendapatkan grafik berikut:

Gambar 1. Titik data yang menunjukkan tren menurun dari kiri ke kanan.

Gambar 1. Berat mobil (dalam pound) versus rating mil per galon. Seiring dengan makin beratnya mobil, rating mil per galonnya umumnya menurun.

Kita dapat membuat model sendiri dengan menggambar garis kesesuaian terbaik melalui titik-titik:

Gambar 2. Titik data dengan garis kesesuaian terbaik yang digambar melalui titik tersebut yang mewakili model.

Gambar 2. Garis kesesuaian terbaik yang digambar melalui data dari gambar sebelumnya.

Persamaan regresi linear

Dalam istilah aljabar, model akan didefinisikan sebagai $ y = mx + b $, dengan

  • $ y $ adalah mil per galon—nilai yang ingin kita prediksi.
  • $ m $ adalah kemiringan garis.
  • $ x $ adalah pound—nilai input kita.
  • $ b $ adalah titik potong sumbu y.

Dalam ML, kita menulis persamaan untuk model regresi linear sebagai berikut:

$$ y' = b + w_1x_1 $$

dalam hal ini:

  • $ y' $ adalah label yang diprediksi—output.
  • $ b $ adalah bias model. Bias adalah konsep yang sama dengan titik singgung y dalam persamaan aljabar untuk garis. Dalam ML, bias terkadang disebut sebagai $ w_0 $. Bias adalah parameter model dan dihitung selama pelatihan.
  • $ w_1 $ adalah bobot fitur. Bobot adalah konsep yang sama dengan kemiringan $ m $ dalam persamaan aljabar untuk garis. Bobot adalah parameter model dan dihitung selama pelatihan.
  • $ x_1 $ adalah fitur—input.

Selama pelatihan, model menghitung bobot dan bias yang menghasilkan model terbaik.

Gambar 3. Persamaan y' = b + w1x1, dengan setiap komponen dianotasi dengan tujuannya.

Gambar 3. Representasi matematika model linear.

Dalam contoh ini, kita akan menghitung bobot dan bias dari garis yang kita gambar. Bias adalah 30 (tempat garis memotong sumbu y), dan bobotnya adalah -3,6 (kemiringan garis). Model akan ditentukan sebagai $ y' = 30 + (-3,6)(x_1) $, dan kita dapat menggunakannya untuk membuat prediksi. Misalnya, dengan menggunakan model ini, mobil seberat 4.000 pon akan memiliki prediksi efisiensi bahan bakar sebesar 15,6 mil per galon.

Gambar 4. Grafik yang sama dengan Gambar 2, dengan titik (4, 15,6) ditandai.

Gambar 4. Dengan menggunakan model ini, mobil seberat 4.000 pon memiliki prediksi efisiensi bahan bakar 15,6 mil per galon.

Model dengan beberapa fitur

Meskipun contoh di bagian ini hanya menggunakan satu fitur—berat mobil—model yang lebih canggih mungkin mengandalkan beberapa fitur, yang masing-masing memiliki bobot terpisah ($ w_1 $, $ w_2 $, dll.). Misalnya, model yang mengandalkan lima fitur akan ditulis sebagai berikut:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Misalnya, model yang memprediksi jarak tempuh bensin juga dapat menggunakan fitur seperti berikut:

  • Kapasitas mesin
  • Akselerasi
  • Jumlah silinder
  • Daya kuda

Model ini akan ditulis sebagai berikut:

Gambar 5. Persamaan regresi linear dengan lima fitur.

Gambar 5. Model dengan lima fitur untuk memprediksi rating mil per galon mobil.

Dengan membuat grafik beberapa fitur tambahan ini, kita dapat melihat bahwa fitur tersebut juga memiliki hubungan linear dengan label, mil per galon:

Gambar 6. Pemindahan dalam sentimeter kubik digambarkan dalam grafik terhadap mil per galon yang menunjukkan hubungan linear negatif.

Gambar 6. Kapasitas mesin mobil dalam sentimeter kubik dan rating mil per galonnya. Seiring dengan semakin besarnya mesin mobil, rating mil per galonnya umumnya menurun.

Gambar 7. Akselerasi dari nol hingga enam puluh dalam hitungan detik digambarkan dalam grafik terhadap mil per galon yang menunjukkan hubungan linear positif.

Gambar 7. Akselerasi mobil dan rating mil per galonnya. Karena akselerasi mobil memerlukan waktu lebih lama, rating mil per galon biasanya meningkat.

Gambar 8. Grafik tenaga kuda terhadap mil per galon menunjukkan hubungan linear negatif.

Gambar 8. Tenaga kuda mobil dan rating mil per galonnya. Seiring dengan meningkatnya tenaga kuda mobil, rating mil per galon umumnya menurun.

Latihan: Periksa pemahaman Anda

Bagian mana dari persamaan regresi linear yang diperbarui selama pelatihan?
Bias dan bobot
Selama pelatihan, model akan memperbarui bias dan bobot.
Prediksi
Prediksi tidak diperbarui selama pelatihan.
Nilai fitur
Nilai fitur adalah bagian dari set data, sehingga tidak diperbarui selama pelatihan.