Halaman ini diterjemahkan oleh Cloud Translation API.

Regularisasi untuk Kesederhanaan: Lambda

Developer model menyesuaikan dampak keseluruhan istilah regularisasi dengan mengalikan nilainya dengan skalar yang dikenal sebagai lambda (juga disebut derajat regularisasi). Artinya, developer model ingin melakukan hal berikut:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Melakukan regularisasi L₂ memiliki efek berikut pada model

Mendorong nilai bobot ke arah 0 (tetapi tidak persis 0)
Mendorong rata-rata bobot ke arah 0, dengan distribusi normal (berbentuk lonceng atau Gaussian).

Meningkatkan nilai lambda akan memperkuat efek regularisasi. Misalnya, histogram bobot untuk nilai lambda yang tinggi mungkin terlihat seperti yang ditunjukkan pada Gambar 2.

Histogram bobot model dengan rata-rata nol dan distribusi normal.

Gambar 2. Histogram bobot.

Menurunkan nilai lambda cenderung menghasilkan histogram yang lebih datar, seperti yang ditunjukkan pada Gambar 3.

Histogram bobot model dengan rata-rata nol yang ada di antara distribusi datar dan distribusi normal.

Gambar 3. Histogram bobot yang dihasilkan oleh nilai lambda yang lebih rendah.

Saat memilih nilai lambda, tujuannya adalah untuk mencapai keseimbangan yang tepat antara kesederhanaan dan kesesuaian data pelatihan:

Jika nilai lambda terlalu tinggi, model akan menjadi sederhana, tetapi Anda berisiko under pas data. Model tidak akan cukup mempelajari data pelatihan untuk membuat prediksi yang berguna.
Jika nilai lambda terlalu rendah, model akan menjadi lebih kompleks, dan Anda berisiko overpak data. Model Anda akan mempelajari terlalu banyak kekhususan data pelatihan dan tidak akan dapat menggeneralisasi ke data baru.

Nilai ideal lambda menghasilkan model yang menggeneralisasi data baru yang sebelumnya tidak terlihat. Sayangnya, nilai ideal lambda bergantung pada data, sehingga Anda harus melakukan beberapa penyesuaian .

Klik ikon plus untuk mempelajari regularisasi dan kecepatan pembelajaran L₂.

Ada hubungan erat antara kecepatan pemelajaran dan lambda. Nilai regularisasi L₂ yang kuat cenderung mendorong bobot fitur mendekati 0. Kecepatan pembelajaran yang lebih rendah (dengan penghentian awal) sering menghasilkan efek yang sama karena langkah menjauh dari 0 tidak lebih besar. Akibatnya, mengubah kecepatan pemelajaran dan lambda secara bersamaan dapat menimbulkan efek perancu.

Penghentian awal berarti mengakhiri pelatihan sebelum model mencapai konvergensi sepenuhnya. Dalam praktiknya, kita sering berakhir dengan sejumlah penghentian awal yang implisit saat melakukan latihan mode online (berkelanjutan). Artinya, beberapa tren baru belum memiliki cukup data untuk dikonvergensi.

Seperti yang telah disebutkan, efek dari perubahan parameter regularisasi dapat menjadi rumit dengan efek dari perubahan kecepatan pemelajaran atau jumlah iterasi. Salah satu praktik yang berguna (saat melatih di batch data tetap) adalah memberi diri Anda jumlah iterasi yang cukup tinggi yang tidak berpengaruh pada penghentian awal.

Sebelumnya

Regularisasi L2

Berikutnya

Latihan Playground: Regularisasi L2

Regularisasi untuk Kesederhanaan: Lambda

Klik ikon plus untuk mempelajari regularisasi dan kecepatan pembelajaran L2.

Klik ikon plus untuk mempelajari regularisasi dan kecepatan pembelajaran L₂.