Mengurangi Kerugian: Kecepatan Pembelajaran

Sebagaimana telah disebutkan, vektor gradien memiliki arah dan magnitudo. Algoritma penurunan gradien mengalikan gradien dengan skalar yang dikenal sebagai kecepatan pembelajaran (terkadang juga disebut ukuran langkah) untuk menentukan titik berikutnya. Misalnya, jika besaran gradien adalah 2,5 dan kecepatan pemelajarannya adalah 0,01, algoritme penurunan gradien akan memilih titik berikutnya yang berjarak 0,025 dari titik sebelumnya.

Hyperparameter adalah tombol yang diprogram oleh programmer dalam algoritma machine learning. Sebagian besar programmer machine learning menghabiskan cukup banyak waktu untuk menyesuaikan kecepatan pembelajaran. Jika Anda memilih kecepatan pembelajaran yang terlalu kecil, pembelajaran akan memakan waktu terlalu lama:

Kurva berbentuk U yang sama. Banyak titik yang sangat berdekatan satu sama lain dan jejak mereka membuat kemajuan yang sangat lambat menuju bagian bawah AS.

Gambar 6. Kecepatan pembelajaran terlalu kecil.

Sebaliknya, jika Anda menentukan kecepatan pemelajaran yang terlalu besar, poin berikutnya akan terus-menerus memantul secara acak di bagian bawah sumur, seperti eksperimen mekanika kuantum yang berjalan sangat salah:

Kurva berbentuk U yang sama. Yang ini berisi sangat sedikit poin. Jejak poin bergerak bebas di bagian bawah U, lalu melompat kembali lagi.

Gambar 7. Kecepatan pembelajaran terlalu besar.

Ada kecepatan pembelajaran Goldilocks untuk setiap masalah regresi. Nilai Goldilocks berkaitan dengan seberapa datar fungsi kerugian. Jika Anda tahu bahwa gradien fungsi kerugian kecil, Anda dapat dengan aman mencoba kecepatan pembelajaran yang lebih besar, yang mengompensasi gradien kecil dan menghasilkan ukuran langkah yang lebih besar.

Kurva berbentuk U yang sama. Jejak poin mencapai titik minimum dalam delapan langkah.

Gambar 8. Kecepatan pembelajaran pas.