Overfitting: Regularisasi L2

Regularisasi 2 adalah metrik regularisasi populer, yang menggunakan formula berikut:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Misalnya, tabel berikut menunjukkan penghitungan regularisasi L2 untuk model dengan enam bobot:

Nilai Nilai kuadrat
w1 0,2 0,04
w2 -0,5 0,25
w3 5,0 25,0
w4 -1,2 1,44
w5 0,3 0,09
w6 -0,1 0,01
    26,83 = total

Perhatikan bahwa bobot yang mendekati nol tidak terlalu memengaruhi regularisasi L2, tetapi bobot yang besar dapat berdampak besar. Misalnya, dalam penghitungan sebelumnya:

  • Satu bobot (w3) berkontribusi sekitar 93% dari total kompleksitas.
  • Lima bobot lainnya secara kolektif hanya berkontribusi sekitar 7% dari total kompleksitas.

Regularisasi L2 mendorong bobot ke arah 0, tetapi tidak pernah mendorong bobot hingga nol.

Latihan: Periksa pemahaman Anda

Jika Anda menggunakan regularisasi L2 saat melatih model, apa yang biasanya akan terjadi pada kompleksitas keseluruhan model?
Kompleksitas keseluruhan sistem mungkin akan menurun.
Karena regularisasi L2 mendorong bobot ke arah 0, kompleksitas keseluruhan mungkin akan menurun.
Kompleksitas keseluruhan model mungkin akan tetap konstan.
Hal ini sangat tidak mungkin terjadi.
Kompleksitas keseluruhan model mungkin akan meningkat.
Hal ini tidak mungkin terjadi. Ingat bahwa regularisasi L2 mendorong bobot ke arah 0.
Jika Anda menggunakan regularisasi L2 saat melatih model, beberapa fitur akan dihapus dari model.
Benar
Meskipun regularisasi L2 dapat membuat beberapa bobot menjadi sangat kecil, regularisasi ini tidak akan pernah mendorong bobot apa pun hingga nol. Akibatnya, semua fitur akan tetap berkontribusi pada model.
Salah
Regularisasi L2 tidak pernah mendorong bobot hingga nol.

Rasio regularisasi (lambda)

Seperti yang telah disebutkan, pelatihan mencoba meminimalkan beberapa kombinasi kerugian dan kompleksitas:

$$\text{minimize(loss} + \text{ complexity)}$$

Developer model menyesuaikan dampak keseluruhan kompleksitas pada pelatihan model dengan mengalikan nilainya dengan skalar yang disebut rasio regularisasi. Karakter Yunani lambda biasanya melambangkan tingkat regularisasi.

Artinya, developer model bertujuan untuk melakukan hal berikut:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Rasio regularisasi yang tinggi:

  • Memperkuat pengaruh regularisasi, sehingga mengurangi kemungkinan overfitting.
  • Cenderung menghasilkan histogram bobot model yang memiliki karakteristik berikut:
    • distribusi normal
    • berat rata-rata 0.

Rasio regularisasi yang rendah:

  • Menurunkan pengaruh regularisasi, sehingga meningkatkan kemungkinan overfitting.
  • Cenderung menghasilkan histogram bobot model dengan distribusi datar.

Misalnya, histogram bobot model untuk tingkat regularisasi tinggi mungkin terlihat seperti yang ditunjukkan pada Gambar 18.

Gambar 18. Histogram bobot model dengan rata-rata nol dan
           distribusi normal.
Gambar 18. Histogram bobot untuk tingkat regularisasi yang tinggi. Rata-rata adalah nol. Distribusi normal.

 

Sebaliknya, rasio regularisasi yang rendah cenderung menghasilkan histogram yang lebih datar, seperti yang ditunjukkan pada Gambar 19.

Gambar 19. Histogram bobot model dengan rata-rata nol yang berada di antara distribusi datar dan distribusi normal.
Gambar 19. Histogram bobot untuk tingkat regularisasi yang rendah. Rata-rata mungkin nol atau bukan nol.

 

Memilih tingkat regularisasi

Rasio regularisasi yang ideal menghasilkan model yang menggeneralisasi dengan baik ke data baru yang sebelumnya tidak terlihat. Sayangnya, nilai ideal tersebut bergantung pada data, sehingga Anda harus melakukan beberapa penyesuaian .

Penghentian awal: alternatif untuk regularisasi berbasis kompleksitas

Penghentian awal adalah metode regularisasi yang tidak melibatkan penghitungan kompleksitas. Sebaliknya, penghentian awal berarti mengakhiri pelatihan sebelum model berkumpul sepenuhnya. Misalnya, Anda mengakhiri pelatihan saat kurva kerugian untuk set validasi mulai meningkat (kemiringan menjadi positif).

Meskipun penghentian awal biasanya meningkatkan kerugian pelatihan, penghentian awal dapat mengurangi kerugian pengujian.

Penghentian awal adalah bentuk regularisasi yang cepat, tetapi jarang optimal. Model yang dihasilkan sangat tidak mungkin sebagus model yang dilatih secara menyeluruh pada tingkat regularisasi yang ideal.

Menemukan keseimbangan antara kecepatan pemelajaran dan kecepatan regularisasi

Kecepatan pembelajaran dan kecepatan regularisasi cenderung menarik bobot ke arah yang berlawanan. Rasio pembelajaran yang tinggi sering kali menarik bobot menjauh dari nol; rasio regularisasi yang tinggi menarik bobot ke arah nol.

Jika tingkat regularisasi tinggi sehubungan dengan tingkat pembelajaran, bobot yang lemah cenderung menghasilkan model yang membuat prediksi yang buruk. Sebaliknya, jika kecepatan belajar tinggi sehubungan dengan kecepatan regulasi, bobot yang kuat cenderung menghasilkan model yang overfit.

Tujuan Anda adalah menemukan keseimbangan antara kecepatan pemelajaran dan kecepatan regularisasi. Hal ini bisa menjadi tantangan. Yang terburuk, setelah menemukan keseimbangan yang sulit dipahami, Anda mungkin harus mengubah kecepatan belajar pada akhirnya. Selain itu, saat mengubah kecepatan belajar, Anda harus menemukan lagi kecepatan regularisasi yang ideal.