Regularisasi 2 adalah metrik regularisasi populer, yang menggunakan formula berikut:
Misalnya, tabel berikut menunjukkan penghitungan regularisasi L2 untuk model dengan enam bobot:
Nilai | Nilai kuadrat | |
---|---|---|
w1 | 0,2 | 0,04 |
w2 | -0,5 | 0,25 |
w3 | 5,0 | 25,0 |
w4 | -1,2 | 1,44 |
w5 | 0,3 | 0,09 |
w6 | -0,1 | 0,01 |
26,83 = total |
Perhatikan bahwa bobot yang mendekati nol tidak terlalu memengaruhi regularisasi L2, tetapi bobot yang besar dapat berdampak besar. Misalnya, dalam penghitungan sebelumnya:
- Satu bobot (w3) berkontribusi sekitar 93% dari total kompleksitas.
- Lima bobot lainnya secara kolektif hanya berkontribusi sekitar 7% dari total kompleksitas.
Regularisasi L2 mendorong bobot ke arah 0, tetapi tidak pernah mendorong bobot hingga nol.
Latihan: Periksa pemahaman Anda
Rasio regularisasi (lambda)
Seperti yang telah disebutkan, pelatihan mencoba meminimalkan beberapa kombinasi kerugian dan kompleksitas:
Developer model menyesuaikan dampak keseluruhan kompleksitas pada pelatihan model dengan mengalikan nilainya dengan skalar yang disebut rasio regularisasi. Karakter Yunani lambda biasanya melambangkan tingkat regularisasi.
Artinya, developer model bertujuan untuk melakukan hal berikut:
Rasio regularisasi yang tinggi:
- Memperkuat pengaruh regularisasi, sehingga mengurangi kemungkinan overfitting.
- Cenderung menghasilkan histogram bobot model yang memiliki karakteristik
berikut:
- distribusi normal
- berat rata-rata 0.
Rasio regularisasi yang rendah:
- Menurunkan pengaruh regularisasi, sehingga meningkatkan kemungkinan overfitting.
- Cenderung menghasilkan histogram bobot model dengan distribusi datar.
Misalnya, histogram bobot model untuk tingkat regularisasi tinggi mungkin terlihat seperti yang ditunjukkan pada Gambar 18.
Sebaliknya, rasio regularisasi yang rendah cenderung menghasilkan histogram yang lebih datar, seperti yang ditunjukkan pada Gambar 19.
Memilih tingkat regularisasi
Rasio regularisasi yang ideal menghasilkan model yang menggeneralisasi dengan baik ke data baru yang sebelumnya tidak terlihat. Sayangnya, nilai ideal tersebut bergantung pada data, sehingga Anda harus melakukan beberapa penyesuaian .
Penghentian awal: alternatif untuk regularisasi berbasis kompleksitas
Penghentian awal adalah metode regularisasi yang tidak melibatkan penghitungan kompleksitas. Sebaliknya, penghentian awal berarti mengakhiri pelatihan sebelum model berkumpul sepenuhnya. Misalnya, Anda mengakhiri pelatihan saat kurva kerugian untuk set validasi mulai meningkat (kemiringan menjadi positif).
Meskipun penghentian awal biasanya meningkatkan kerugian pelatihan, penghentian awal dapat mengurangi kerugian pengujian.
Penghentian awal adalah bentuk regularisasi yang cepat, tetapi jarang optimal. Model yang dihasilkan sangat tidak mungkin sebagus model yang dilatih secara menyeluruh pada tingkat regularisasi yang ideal.
Menemukan keseimbangan antara kecepatan pemelajaran dan kecepatan regularisasi
Kecepatan pembelajaran dan kecepatan regularisasi cenderung menarik bobot ke arah yang berlawanan. Rasio pembelajaran yang tinggi sering kali menarik bobot menjauh dari nol; rasio regularisasi yang tinggi menarik bobot ke arah nol.
Jika tingkat regularisasi tinggi sehubungan dengan tingkat pembelajaran, bobot yang lemah cenderung menghasilkan model yang membuat prediksi yang buruk. Sebaliknya, jika kecepatan belajar tinggi sehubungan dengan kecepatan regulasi, bobot yang kuat cenderung menghasilkan model yang overfit.
Tujuan Anda adalah menemukan keseimbangan antara kecepatan pemelajaran dan kecepatan regularisasi. Hal ini bisa menjadi tantangan. Yang terburuk, setelah menemukan keseimbangan yang sulit dipahami, Anda mungkin harus mengubah kecepatan belajar pada akhirnya. Selain itu, saat mengubah kecepatan belajar, Anda harus menemukan lagi kecepatan regularisasi yang ideal.