Regularisasi untuk Kesederhanaan: Regularisasi L2

Pertimbangkan kurva generalisasi berikut, yang menunjukkan kerugian untuk set pelatihan dan set validasi terhadap jumlah iterasi pelatihan.

Fungsi kerugian untuk set pelatihan menurun secara bertahap. Sebaliknya, fungsi kerugian untuk set validasi menurun, tetapi kemudian mulai naik.

Gambar 1. Kerugian pada set pelatihan dan set validasi.

Gambar 1 menunjukkan model tempat kerugian pelatihan menurun secara bertahap, tetapi kerugian validasi nantinya naik. Dengan kata lain, kurva generalisasi ini menunjukkan bahwa model overfit terhadap data dalam set pelatihan. Menyalurkan Ockham bagian dalam, agar kita dapat mencegah overfit dengan mengganjar model kompleks, sebuah prinsip yang disebut regularisasi.

Dengan kata lain, bukan hanya bertujuan untuk meminimalkan kerugian (minimalisasi risiko empiris):

$$\text{minimize(Loss(Data|Model))}$$

sekarang kita akan meminimalkan kerugian+kompleksitas, yang disebut minimalisasi risiko struktural:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

Algoritme pengoptimalan pelatihan kami sekarang merupakan fungsi dua istilah: istilah kerugian, yang mengukur seberapa cocok model dengan data, dan istilah regularisasi, yang mengukur kompleksitas model.

Kursus Singkat Machine Learning berfokus pada dua cara umum (dan yang saling terkait) untuk membayangkan kompleksitas model:

  • Kompleksitas model sebagai fungsi dari bobot seluruh fitur dalam model.
  • Kompleksitas model sebagai fungsi dari jumlah total fitur dengan bobot yang bukan nol. (Modul selanjutnya membahas pendekatan ini.)

Jika kompleksitas model adalah fungsi dari bobot, bobot fitur dengan nilai absolut yang tinggi akan lebih kompleks daripada bobot fitur dengan nilai absolut yang rendah.

Kita dapat mengukur kompleksitas menggunakan formula regularisasi L2, yang mendefinisikan istilah regularisasi sebagai jumlah kuadrat dari seluruh bobot fitur:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

Dalam formula ini, bobot yang mendekati nol hanya memiliki sedikit pengaruh pada kompleksitas model, sedangkan bobot pencilan dapat berdampak besar.

Misalnya, model linear dengan bobot berikut:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

Memiliki istilah regularisasi L2 yaitu 26,915:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

Namun, \(w_3\) (dicetak tebal di atas), dengan nilai kuadrat 25, berkontribusi hampir semua kompleksitas. Jumlah kuadrat dari kelima bobot lainnya hanya menambah 1,915 ke istilah regularisasi L2.