손실 줄이기: 학습률

앞서 언급했듯이 경사 벡터에는 방향과 크기가 모두 있습니다. 경사하강법 알고리즘은 경사에 학습률 (걸음 크기라고도 함)이라는 스칼라를 곱해서 다음 지점을 결정합니다. 예를 들어 경사 크기가 2.5이고 학습률이 0.01이면 경사하강법 알고리즘은 이전 지점에서 0.025 떨어진 다음 지점을 선택합니다.

초매개변수는 프로그래머가 머신러닝 알고리즘에서 조정하는 값입니다. 대부분의 머신러닝 프로그래머는 학습률을 조정하는 데 상당한 시간을 할애합니다 너무 작은 학습률을 선택하면 학습 시간이 너무 오래 걸립니다.

동일한 U자형 곡선입니다. 많은 지점이 서로 매우 가깝고 자국이 U의 바닥으로 향하는 진전을 매우 느리게 진행하고 있습니다.

그림 6. 학습률이 너무 작습니다.

반대로 학습률을 너무 크게 지정하면 양자역학 실험이 엄청나게 잘못되었음처럼 다음 지점이 우물 하단을 지나 무질서하게 이탈합니다.

동일한 U자형 곡선입니다. 이 항목에는 포인트가 거의 없습니다. 점의 자취가 U자형 곡선의 하단을 가로질러 정돈되었다가 다시 돌아옵니다.

그림 7. 학습률이 너무 큽니다.

모든 회귀 문제에는 골디락스 학습률이 있습니다. 골디락스 값은 손실 함수가 얼마나 평탄한지와 관련이 있습니다. 손실 함수의 기울기가 작다는 것을 알고 있으면 더 큰 학습률을 시험해 볼 수 있습니다. 그러면 작은 기울기를 보완하고 보폭 크기가 커집니다.

동일한 U자형 곡선입니다. 점의 자취가 약 8걸음을 거쳐 최저점에 도달합니다.

그림 8. 학습률이 적절합니다.