학습률

이 부록에는 학습률에 대한 몇 가지 추가 세부정보가 포함되어 있습니다.

학습률 감소 일정

최적의 학습률 붕괴 일정 계열은 미해결 문제입니다. 이 질문에 자신 있게 답하기 위해 엄격한 실험을 구성하는 방법은 명확하지 않습니다. 최적의 일정 계열을 모르더라도 다음 사항을 확실하게 알고 있습니다.

  • 일정하지 않은 일정을 잡는 것이 중요합니다.
  • 일정 조정이 중요합니다.

최적화 프로세스 중에는 학습률이 서로 다른 시점에 가장 잘 작동합니다. 일종의 일정이 있으면 모델이 양호한 학습률을 달성할 가능성이 커집니다.

최적의 기본 학습률 감소

다음 학습률 감소 모음을 기본값으로 사용하는 것이 좋습니다.

  • 선형 붕괴
  • 코사인 붕괴

다른 많은 가족 그룹도 유용할 수 있습니다.

일부 논문에 복잡한 학습률 일정이 있는 이유는 무엇인가요?

많은 학술 논문에서는 복잡한 부분별 학습률 (LR) 붕괴 일정을 사용합니다. 독자들은 때로 저자가 이렇게 복잡한 일정에 어떻게 찾아왔는지 궁금해할 때가 많습니다. 복잡한 LR 감쇠 일정은 많은 경우 임시적인 검증 세트 성능의 함수로 일정을 조정한 결과입니다. 이는 다음과 같은 의미입니다.

  1. 간단한 LR 붕괴(또는 일정한 학습률)로 단일 학습 실행을 시작합니다.
  2. 실적이 정체될 때까지 학습을 계속합니다. 이 경우 학습을 일시중지하세요. 그런 다음 이 지점에서 더 가파른 LR 감쇠 일정 (또는 더 작은 상수 학습률)으로 다시 시작합니다. 회의 또는 출시 기한까지 이 과정을 반복합니다.

가장 좋은 일정은 다른 여러 초매개변수 선택에 민감하므로 결과 일정을 복사하지 않는 것이 일반적으로 좋은 생각은 아닙니다. 임의의 사람의 판단에 따라 일정을 생성하는 경우는 드물지만 일정을 생성한 알고리즘을 복사하는 것이 좋습니다. 이러한 유형의 유효성 검사 오류에 완전히 민감한 일정은 완전히 자동화할 수 있지만 검증 오류의 함수인 인간 참여형(Human-In-The-Loop) 일정은 불안정하며 쉽게 재현할 수 없으므로 피하는 것이 좋습니다. 이러한 일정을 사용한 결과를 게시하기 전에 완전히 재현 가능하도록 만들어 보세요.

Adam의 초매개변수는 어떻게 조정해야 하나요?

Adam의 모든 초매개변수가 똑같이 중요한 것은 아닙니다. 다음 학습 규칙은 시험의 시도 횟수에 따라 서로 다른 '예산'에 해당합니다.

  • 조사에서 시도 횟수가 10회 미만인 경우 (기본) 학습률만 조정합니다.
  • 조사에서 10~25번의 시도를 한다면 학습률과 beta_1을 조정합니다.
  • 25번 이상의 시도를 했다면 학습률, beta_1, epsilon를 조정하세요.
  • 시도가 25회를 크게 초과하는 경우 beta_2도 추가로 조정합니다.

검색 공간에 대한 일반적인 규칙을 제공하기가 얼마나 어렵고 검색 공간에서 샘플링해야 하는 포인트가 얼마나 되는지를 감안할 때 이 섹션에 설명된 일반적인 규칙을 대략적인 가이드라인으로 살펴보세요."