Lampiran ini berisi beberapa detail tambahan tentang kecepatan pembelajaran.
Jadwal peluruhan kecepatan pembelajaran
Kelompok jadwal peluruhan kecepatan pembelajaran terbaik adalah masalah terbuka; tidak jelas cara membuat serangkaian eksperimen ketat untuk menjawab pertanyaan ini dengan percaya diri. Meskipun tidak mengetahui keluarga jadwal terbaik, kami yakin dengan hal berikut:
- Penting untuk memiliki beberapa jadwal (tidak konstan).
- Menyesuaikan jadwal itu penting.
Kecepatan pembelajaran yang berbeda berfungsi paling baik pada waktu yang berbeda selama proses pengoptimalan. Memiliki semacam jadwal membuat kemungkinan besar model akan mencapai kecepatan pembelajaran yang baik.
Peluruhan kecepatan pembelajaran default terbaik
Kami merekomendasikan salah satu kelompok peluruhan kecepatan pembelajaran berikut sebagai default:
- Peluruhan linear
- Peluruhan kosinus
Banyak keluarga jadwal lainnya mungkin juga baik.
Mengapa beberapa makalah memiliki jadwal kecepatan pembelajaran yang rumit?
Banyak makalah akademis menggunakan jadwal peluruhan kecepatan pembelajaran bijaksana (LR) yang rumit. Pembaca sering bertanya-tanya bagaimana penulis tiba pada jadwal yang begitu rumit. Banyak jadwal peluruhan LR yang rumit adalah hasil dari penyesuaian jadwal sebagai fungsi dari performa set validasi dengan cara ad hoc. Definisinya yaitu:
- Mulai satu sesi pelatihan dengan beberapa peluruhan LR sederhana (atau kecepatan pembelajaran yang konstan).
- Tetap jalankan pelatihan hingga performanya stagnan. Jika ini terjadi, jeda pelatihan. Kemudian, lanjutkan dengan jadwal peluruhan LR yang mungkin lebih lambat (atau kecepatan pembelajaran konstan yang lebih kecil) dari titik ini. Ulangi proses ini (hingga batas waktu konferensi atau peluncuran).
Menyalin jadwal yang dihasilkan secara diam-diam biasanya bukan ide yang baik karena jadwal khusus terbaik bersifat sensitif terhadap host pilihan hyperparameter lainnya. Sebaiknya salin algoritme yang menghasilkan jadwal, meskipun ini jarang terjadi jika penilaian manual sempurna menghasilkan jadwal. Jenis jadwal yang peka error validasi ini dapat digunakan jika jadwal tersebut sepenuhnya otomatis, tetapi jadwal manual yang merupakan fungsi error validasi rapuh dan tidak dapat direproduksi, jadi sebaiknya hindari jadwal tersebut. Sebelum memublikasikan hasil yang menggunakan jadwal seperti itu, coba buat ulang sepenuhnya.
Bagaimana hyperparameter Adam harus disesuaikan?
Tidak semua hyperparameter di Adam sama pentingnya. Aturan umum berikut sesuai dengan "anggaran" yang berbeda untuk jumlah uji coba dalam studi.
- Jika < 10 uji coba dalam studi, hanya sesuaikan kecepatan pembelajaran (dasar).
- Jika ada 10-25 uji coba dalam studi, sesuaikan kecepatan pembelajaran dan
beta_1
. - Jika memiliki lebih dari 25 uji coba, sesuaikan kecepatan pembelajaran,
beta_1
, danepsilon
. - Jika ada lebih dari 25 uji coba, sesuaikan juga
beta_2
.
Mengingat betapa sulitnya menyediakan aturan umum tentang ruang penelusuran dan berapa banyak poin yang harus diambil dari ruang penelusuran, lihat aturan umum yang disebutkan di bagian ini sebagai pedoman umum."