Overfitting: Menafsirkan kurva kerugian

Machine learning akan jauh lebih sederhana jika semua kurva kerugian terlihat seperti ini saat pertama kali melatih model:

Gambar 20. Plot yang menunjukkan kurva kerugian yang ideal saat melatih
            machine learning tertentu. Kurva kerugian memplot kerugian pada sumbu y
            terhadap jumlah langkah pelatihan pada sumbu x. Sebagai angka
            langkah pelatihan meningkat, kerugian dimulai dengan tinggi, lalu menurun
            secara eksponensial, dan pada akhirnya 
menjadi rata untuk mencapai nilai minimum
            kerugian.
Gambar 20. Kurva kerugian yang ideal.

Sayangnya, kurva kerugian sering kali sulit ditafsirkan. Gunakan intuisi tentang kurva kerugian untuk menyelesaikan latihan di halaman ini.

Latihan 1: Kurva penyimpangan osilasi

Gambar 21. Kurva kerugian (kerugian pada sumbu y; jumlah pelatihan
            langkah pada sumbu x) di mana kerugian tidak merata.
            Sebaliknya, kerugian berotasi tidak menentu.
Gambar 21. Kurva kerugian osilasi.
Apa tiga hal yang dapat Anda lakukan untuk mencoba memperbaiki kurva kerugian yang ditunjukkan pada Gambar 21.
Periksa data Anda dengan skema data untuk mendeteksi contoh yang buruk, dan lalu menghapus contoh yang buruk dari set pelatihan.
Ya, ini adalah praktik yang baik untuk semua model.
Mengurangi kecepatan pembelajaran.
Ya, mengurangi kecepatan pemelajaran adalah ide yang baik saat melakukan {i>debugging<i} masalah pelatihan.
Kurangi set pelatihan menjadi contoh tepercaya dalam jumlah kecil.
Meskipun teknik ini terdengar palsu, sebenarnya cara ini bagus ide. Dengan asumsi bahwa model konvergensi pada yang tepercaya, Anda dapat secara bertahap menambahkan lebih banyak contoh, mungkin menemukan contoh mana yang menyebabkan kurva kerugian osilasi.
Tambah jumlah contoh di set pelatihan.
Ini adalah ide yang menggoda, tetapi sangat tidak mungkin untuk memperbaikinya menyelesaikan masalah.
Meningkatkan kecepatan pembelajaran.
Secara umum, hindari meningkatkan kecepatan pemelajaran saat model learning menunjukkan adanya masalah.

Latihan 2. Kurva turun dengan lompatan tajam

Gambar 22. Plot kurva kerugian yang menunjukkan penurunan kerugian hingga
            sejumlah langkah pelatihan tertentu 
dan kemudian tiba-tiba meningkat
            dengan langkah-langkah pelatihan lebih lanjut.
Gambar 22. Kenaikan kerugian yang tajam.
Manakah dua dari pernyataan berikut yang mengidentifikasi potensi penyebab kerugian yang meledak pada Gambar 22.
Data input berisi satu atau beberapa NaN—misalnya, nilai yang disebabkan oleh pembagian dengan nol.
Ini lebih umum dari yang mungkin Anda duga.
Data input berisi burst pencilan.
Terkadang, karena pengacakan batch yang tidak tepat, sebuah batch mungkin mengandung banyak {i>outlier<i}.
Kecepatan pembelajaran terlalu rendah.
Kecepatan pembelajaran yang sangat rendah dapat memperpanjang waktu pelatihan, tetapi bukan penyebab kurva kerugian yang aneh.
Tingkat regularisasi terlalu tinggi.
Benar, regularisasi yang sangat tinggi dapat mencegah suatu model converging; Namun, hal itu tidak akan menyebabkan kurva kerugian yang aneh yang ditunjukkan pada Gambar 22.

Latihan 3. Kerugian pengujian menyimpang dari kerugian pelatihan

Gambar 23. Kurva kerugian pelatihan tampak
konvergensi, tetapi
            kerugian validasi mulai meningkat setelah sejumlah pelatihan tertentu
            langkah.
Gambar 23. Peningkatan tajam pada kerugian validasi.
Manakah satu dari pernyataan berikut yang paling mengidentifikasi alasan terjadinya perbedaan antara kurva kerugian pelatihan dan set pengujian?
Model ini melakukan overfitting ke set pelatihan.
Ya, mungkin itu benar. Solusi yang memungkinkan:
  • Membuat model lebih sederhana, mungkin dengan mengurangi jumlah fitur baru.
  • Tingkatkan derajat regularisasi.
  • Memastikan set pelatihan dan set pengujian bersifat statistik ekuivalen.
Kecepatan pembelajaran terlalu tinggi.
Jika kecepatan pembelajaran terlalu tinggi, kurva kerugian untuk set pelatihan mungkin tidak akan berperilaku seperti yang seharusnya.

Latihan 4. Kurva penurunan macet

Gambar 24. Plot kurva kerugian yang menunjukkan
kerugian mulai dari
            menyatu dengan pelatihan, tetapi kemudian 
menampilkan pola berulang yang
            terlihat seperti gelombang persegi panjang.
Gambar 24. Kehilangan kekacauan setelah sejumlah langkah tertentu.
Manakah salah satu dari pernyataan berikut yang paling mungkin penjelasan kurva kerugian yang tidak menentu yang ditunjukkan pada Gambar 24.
Set pelatihan berisi urutan contoh yang berulang.
Ini adalah kemungkinan. Pastikan Anda mengacak contoh tidak memadai.
Tingkat regularisasi terlalu tinggi.
Kemungkinan besar ini adalah penyebabnya.
Set pelatihan berisi terlalu banyak fitur.
Kemungkinan besar ini adalah penyebabnya.