Sebagaimana telah disebutkan, vektor gradien memiliki arah dan magnitudo. Algoritma penurunan gradien mengalikan gradien dengan skalar yang dikenal sebagai kecepatan pembelajaran (terkadang juga disebut ukuran langkah) untuk menentukan titik berikutnya. Misalnya, jika besaran gradien adalah 2,5 dan kecepatan pemelajarannya adalah 0,01, algoritme penurunan gradien akan memilih titik berikutnya yang berjarak 0,025 dari titik sebelumnya.
Hyperparameter adalah tombol yang diprogram oleh programmer dalam algoritma machine learning. Sebagian besar programmer machine learning menghabiskan cukup banyak waktu untuk menyesuaikan kecepatan pembelajaran. Jika Anda memilih kecepatan pembelajaran yang terlalu kecil, pembelajaran akan memakan waktu terlalu lama:
Gambar 6. Kecepatan pembelajaran terlalu kecil.
Sebaliknya, jika Anda menentukan kecepatan pemelajaran yang terlalu besar, poin berikutnya akan terus-menerus memantul secara acak di bagian bawah sumur, seperti eksperimen mekanika kuantum yang berjalan sangat salah:
Gambar 7. Kecepatan pembelajaran terlalu besar.
Ada kecepatan pembelajaran Goldilocks untuk setiap masalah regresi. Nilai Goldilocks berkaitan dengan seberapa datar fungsi kerugian. Jika Anda tahu bahwa gradien fungsi kerugian kecil, Anda dapat dengan aman mencoba kecepatan pembelajaran yang lebih besar, yang mengompensasi gradien kecil dan menghasilkan ukuran langkah yang lebih besar.
Gambar 8. Kecepatan pembelajaran pas.