Halaman ini diterjemahkan oleh Cloud Translation API.

Mengurangi Kerugian: Kecepatan Pembelajaran

Sebagaimana telah disebutkan, vektor gradien memiliki arah dan magnitudo. Algoritma penurunan gradien mengalikan gradien dengan skalar yang dikenal sebagai kecepatan pembelajaran (terkadang juga disebut ukuran langkah) untuk menentukan titik berikutnya. Misalnya, jika besaran gradien adalah 2,5 dan kecepatan pemelajarannya adalah 0,01, algoritme penurunan gradien akan memilih titik berikutnya yang berjarak 0,025 dari titik sebelumnya.

Hyperparameter adalah tombol yang diprogram oleh programmer dalam algoritma machine learning. Sebagian besar programmer machine learning menghabiskan cukup banyak waktu untuk menyesuaikan kecepatan pembelajaran. Jika Anda memilih kecepatan pembelajaran yang terlalu kecil, pembelajaran akan memakan waktu terlalu lama:

Kurva berbentuk U yang sama. Banyak titik yang sangat berdekatan satu sama lain dan jejak mereka membuat kemajuan yang sangat lambat menuju bagian bawah AS.

Gambar 6. Kecepatan pembelajaran terlalu kecil.

Sebaliknya, jika Anda menentukan kecepatan pemelajaran yang terlalu besar, poin berikutnya akan terus-menerus memantul secara acak di bagian bawah sumur, seperti eksperimen mekanika kuantum yang berjalan sangat salah:

Kurva berbentuk U yang sama. Yang ini berisi sangat sedikit poin. Jejak poin bergerak bebas di bagian bawah U, lalu melompat kembali lagi.

Gambar 7. Kecepatan pembelajaran terlalu besar.

Ada kecepatan pembelajaran Goldilocks untuk setiap masalah regresi. Nilai Goldilocks berkaitan dengan seberapa datar fungsi kerugian. Jika Anda tahu bahwa gradien fungsi kerugian kecil, Anda dapat dengan aman mencoba kecepatan pembelajaran yang lebih besar, yang mengompensasi gradien kecil dan menghasilkan ukuran langkah yang lebih besar.

Kurva berbentuk U yang sama. Jejak poin mencapai titik minimum dalam delapan langkah.

Gambar 8. Kecepatan pembelajaran pas.

Klik ikon plus untuk mempelajari lebih lanjut kecepatan pembelajaran yang ideal.

Kecepatan pembelajaran yang ideal dalam satu dimensi adalah \(\frac{ 1 }{ f''(x) }\) (kebalikan dari turunan kedua f(x) pada x).

Kecepatan pembelajaran yang ideal untuk 2 atau beberapa dimensi adalah kebalikan dari Hessian (matriks dari turunan parsial kedua).

Cerita untuk fungsi konveks umum lebih kompleks.

Sebelumnya

Penurunan Gradien

Berikutnya

Mengoptimalkan Kecepatan Pembelajaran