Modul ini memperkenalkan konsep regresi linear.
Regresi linear adalah teknik statistik yang digunakan untuk menemukan hubungan antarvariabel. Dalam konteks ML, regresi linear menemukan hubungan antara fitur dan label.
Misalnya, kita ingin memprediksi efisiensi bahan bakar mobil dalam mil per galon berdasarkan berat mobil, dan kita memiliki set data berikut:
Pound dalam ribuan (fitur) | Mil per galon (label) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Jika kita memetakan titik-titik ini, kita akan mendapatkan grafik berikut:
Gambar 1. Berat mobil (dalam pound) versus rating mil per galon. Seiring dengan makin beratnya mobil, rating mil per galonnya umumnya menurun.
Kita dapat membuat model sendiri dengan menggambar garis kesesuaian terbaik melalui titik-titik:
Gambar 2. Garis kesesuaian terbaik yang digambar melalui data dari gambar sebelumnya.
Persamaan regresi linear
Dalam istilah aljabar, model akan didefinisikan sebagai $ y = mx + b $, dengan
- $ y $ adalah mil per galon—nilai yang ingin kita prediksi.
- $ m $ adalah kemiringan garis.
- $ x $ adalah pound—nilai input kita.
- $ b $ adalah titik potong sumbu y.
Dalam ML, kita menulis persamaan untuk model regresi linear sebagai berikut:
dalam hal ini:
- $ y' $ adalah label yang diprediksi—output.
- $ b $ adalah bias model. Bias adalah konsep yang sama dengan titik singgung y dalam persamaan aljabar untuk garis. Dalam ML, bias terkadang disebut sebagai $ w_0 $. Bias adalah parameter model dan dihitung selama pelatihan.
- $ w_1 $ adalah bobot fitur. Bobot adalah konsep yang sama dengan kemiringan $ m $ dalam persamaan aljabar untuk garis. Bobot adalah parameter model dan dihitung selama pelatihan.
- $ x_1 $ adalah fitur—input.
Selama pelatihan, model menghitung bobot dan bias yang menghasilkan model terbaik.
Gambar 3. Representasi matematika model linear.
Dalam contoh ini, kita akan menghitung bobot dan bias dari garis yang kita gambar. Bias adalah 30 (tempat garis memotong sumbu y), dan bobotnya adalah -3,6 (kemiringan garis). Model akan ditentukan sebagai $ y' = 30 + (-3,6)(x_1) $, dan kita dapat menggunakannya untuk membuat prediksi. Misalnya, dengan menggunakan model ini, mobil seberat 4.000 pon akan memiliki prediksi efisiensi bahan bakar sebesar 15,6 mil per galon.
Gambar 4. Dengan menggunakan model ini, mobil seberat 4.000 pon memiliki prediksi efisiensi bahan bakar 15,6 mil per galon.
Model dengan beberapa fitur
Meskipun contoh di bagian ini hanya menggunakan satu fitur—berat mobil—model yang lebih canggih mungkin mengandalkan beberapa fitur, yang masing-masing memiliki bobot terpisah ($ w_1 $, $ w_2 $, dll.). Misalnya, model yang mengandalkan lima fitur akan ditulis sebagai berikut:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Misalnya, model yang memprediksi jarak tempuh bensin juga dapat menggunakan fitur seperti berikut:
- Kapasitas mesin
- Akselerasi
- Jumlah silinder
- Daya kuda
Model ini akan ditulis sebagai berikut:
Gambar 5. Model dengan lima fitur untuk memprediksi rating mil per galon mobil.
Dengan membuat grafik beberapa fitur tambahan ini, kita dapat melihat bahwa fitur tersebut juga memiliki hubungan linear dengan label, mil per galon:
Gambar 6. Kapasitas mesin mobil dalam sentimeter kubik dan rating mil per galonnya. Seiring dengan semakin besarnya mesin mobil, rating mil per galonnya umumnya menurun.
Gambar 7. Akselerasi mobil dan rating mil per galonnya. Karena akselerasi mobil memerlukan waktu lebih lama, rating mil per galon biasanya meningkat.
Gambar 8. Tenaga kuda mobil dan rating mil per galonnya. Seiring dengan meningkatnya tenaga kuda mobil, rating mil per galon umumnya menurun.