Regresi linear: Kerugian

Kerugian adalah metrik numerik yang menjelaskan seberapa salah prediksi model. Kerugian mengukur jarak antara prediksi model dan label aktual. Tujuan melatih model adalah untuk meminimalkan kerugian, sehingga menguranginya ke nilai serendah mungkin.

Pada gambar berikut, Anda dapat memvisualisasikan kerugian sebagai panah yang ditarik dari titik data ke model. Panah menunjukkan seberapa jauh prediksi model dari nilai sebenarnya.

Gambar 9. Garis kerugian menghubungkan titik data ke
model.

Gambar 9. Kerugian diukur dari nilai aktual ke nilai yang diprediksi.

Jarak kehilangan

Dalam statistik dan machine learning, kerugian mengukur perbedaan antara nilai yang diprediksi dan nilai aktual. Loss berfokus pada jarak antara nilai, bukan arahnya. Misalnya, jika model memprediksi 2, tetapi nilai sebenarnya adalah 5, kita tidak peduli jika kerugiannya negatif $ -3 $ ($ 2-5=-3 $). Sebaliknya, kita peduli bahwa jarak antara nilai adalah $ 3 $. Dengan demikian, semua metode untuk menghitung kerugian akan menghapus tanda tersebut.

Dua metode paling umum untuk menghapus tanda adalah sebagai berikut:

  • Ambil nilai absolut dari perbedaan antara nilai aktual dan prediksi.
  • Kuadratkan perbedaan antara nilai aktual dan prediksi.

Jenis kerugian

Dalam regresi linear, ada empat jenis kerugian utama, yang diuraikan dalam tabel berikut.

Jenis kehilangan Definisi Persamaan
Kerugian 1 Jumlah nilai absolut perbedaan antara nilai yang diprediksi dan nilai aktual. $ ∑ | actual\ value - predicted\ value | $
Rata-rata error absolut (MAE) Rata-rata kerugian L1 di seluruh kumpulan contoh. $ \frac{1}{N} ∑ | nilai\ aktual - nilai\ terprediksi | $
Kerugian 2 L Jumlah kuadrat perbedaan antara nilai prediksi dan nilai aktual. $ ∑(actual\ value - predicted\ value)^2 $
Rataan kuadrat galat (MSE) Rata-rata kerugian L2 di seluruh kumpulan contoh. $ \frac{1}{N} ∑ (actual\ value - predicted\ value)^2 $

Perbedaan fungsional antara loss L1 dan loss L2 (atau antara MAE dan MSE) adalah kuadrat. Jika perbedaan antara prediksi dan label besar, kuadrat akan membuat kerugian lebih besar. Jika perbedaannya kecil (kurang dari 1), kuadrat akan membuat kerugian lebih kecil.

Saat memproses beberapa contoh sekaligus, sebaiknya ratakan kerugian di semua contoh, baik menggunakan MAE maupun MSE.

Contoh penghitungan kerugian

Dengan menggunakan garis kecocokan terbaik sebelumnya, kita akan menghitung kerugian L2 untuk satu contoh. Dari garis yang paling cocok, kami memiliki nilai berikut untuk bobot dan bias:

  • $ \small{Weight: -3.6} $
  • $ \small{Bias: 30} $

Jika model tersebut memprediksi bahwa mobil seberat 2.370 pon menjadi 21,5 mil per galon, tetapi sebenarnya mendapatkan 24 mil per galon, kita akan menghitung kerugian L2 sebagai berikut:

Nilai Persamaan Hasil
Prediksi

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3,6*2,37)}$

$\small{21,5}$
Nilai sebenarnya $ \small{ label } $ $ \small{ 24 } $
Kerugian L2

$ \small{ (prediction - actual\ value)^2} $

$\small{ (21,5 - 24)^2 }$

$\small{6,25}$

Dalam contoh ini, kerugian L2 untuk satu titik data tersebut adalah 6,25.

Memilih kerugian

Menentukan apakah akan menggunakan MAE atau MSE dapat bergantung pada set data dan cara Anda menangani prediksi tertentu. Sebagian besar nilai fitur dalam set data biasanya berada dalam rentang yang berbeda. Misalnya, mobil biasanya memiliki berat antara 2.000 dan 5.000 pon serta mendapatkan antara 8 hingga 50 mil per galon. Mobil seberat 8.000 pon, atau mobil yang mencapai 100 mil per galon, berada di luar kisaran biasanya dan akan dianggap sebagai outlier.

Pengecualian juga dapat merujuk pada seberapa jauh prediksi model dari nilai yang sebenarnya. Misalnya, mobil seberat 3.000 pon atau mobil yang mencapai 40 mil per galon berada dalam rentang biasanya. Namun, mobil seberat 3.000 pon yang mendapatkan 40 mil per galon akan menjadi outlier dalam hal prediksi model karena model akan memprediksi bahwa mobil seberat 3.000 pon akan mendapatkan antara 18 dan 20 mil per galon.

Saat memilih fungsi kerugian terbaik, pertimbangkan bagaimana Anda ingin model tersebut menangani pencilan. Misalnya, MSE lebih memindahkan model ke outlier, sedangkan MAE tidak. Kerugian L2 menimbulkan penalti yang jauh lebih tinggi untuk pencilan daripada kerugian L1. Misalnya, gambar berikut menunjukkan model yang dilatih menggunakan MAE dan model yang dilatih menggunakan MSE. Garis merah mewakili model yang telah dilatih sepenuhnya yang akan digunakan untuk membuat prediksi. Pencilan lebih dekat dengan model yang dilatih dengan MSE daripada model yang dilatih dengan MAE.

Gambar 10. Model lebih condong ke pencilan.

Gambar 10. Model yang dilatih dengan MSE akan memindahkan model lebih dekat ke pencilan.

Gambar 11. Model dimiringkan lebih jauh dari pencilan.

Gambar 11. Model yang dilatih dengan MAE lebih jauh dari pencilan.

Perhatikan hubungan antara model dan data:

  • MSE. Model lebih dekat dengan pencilan, tetapi lebih jauh dari sebagian besar titik data lainnya.

  • MAE. Model ini lebih jauh dari pencilan, tetapi lebih dekat dengan sebagian besar titik data lainnya.

Memeriksa Pemahaman Anda

Pertimbangkan dua plot berikut:

Plot berisi 10 titik.
      Sebuah garis melintasi 6 titik. 2 titik adalah 1 unit
      di atas garis; 2 titik lainnya berjarak 1 unit di bawah garis. Plot berisi 10 titik. Sebuah garis melintasi delapan titik. 1 titik berjarak 2 unit
      di atas garis; 1 titik lainnya berjarak 2 unit di bawah garis.
Manakah dari dua set data yang ditampilkan dalam plot sebelumnya yang memiliki Rataan Kuadrat Galat (MSE) lebih tinggi?
Kumpulan data di sebelah kiri.
Enam contoh pada baris tersebut mengalami total kerugian 0. Keempat contoh yang tidak berada pada garis terletak tidak terlalu jauh dari garis, sehingga meski mengkuadratkan offset mereka akan tetap menghasilkan nilai yang rendah: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Set data di sebelah kanan.
Delapan contoh pada baris tersebut mengalami total kerugian 0. Namun, meskipun hanya dua titik yang berada di luar garis, kedua titik tersebut dua kali lebih jauh dari garis karena titik pencilan di gambar kiri. Kerugian kuadrat akan memperbesar perbedaan tersebut, sehingga offset dua akan menimbulkan kerugian empat kali lebih besar dari offset satu: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$