Скорость обучения

В этом приложении содержится несколько дополнительных сведений о скорости обучения.

График снижения скорости обучения

Семейство наилучших графиков затухания скорости обучения является открытой проблемой; неясно, как построить серию строгих экспериментов, чтобы уверенно ответить на этот вопрос. Хотя мы не знаем лучшего семейства расписаний, мы уверены в следующем:

  • Важно иметь некоторый (непостоянный) график.
  • Настройка этого графика важна.

Различные скорости обучения лучше всего работают в разное время процесса оптимизации. Наличие какого-то расписания повышает вероятность того, что модель достигнет хорошей скорости обучения.

Лучшее снижение скорости обучения по умолчанию

По умолчанию мы рекомендуем одно из следующих семейств снижения скорости обучения:

  • Линейный распад
  • Косинусный распад

Многие другие семейства графиков, вероятно, тоже хороши.

Почему в некоторых статьях сложные графики обучения?

Во многих научных статьях используются сложные графики затухания кусочной скорости обучения (LR). Читатели часто задаются вопросом, как авторы пришли к такому сложному графику. Многие сложные графики затухания LR являются результатом специальной настройки графика в зависимости от производительности набора проверки. То есть:

  1. Начните одиночный тренировочный прогон с простого затухания LR (или постоянной скорости обучения).
  2. Продолжайте тренироваться до тех пор, пока не станет казаться, что производительность застопорилась. Если это произойдет, приостановите тренировку. Затем возобновите его с возможно более крутым графиком затухания LR (или меньшей постоянной скоростью обучения) с этой точки. Повторите этот процесс (до окончания конференции или запуска).

Беспечное копирование полученного графика, как правило, не является хорошей идеей, поскольку лучший конкретный график чувствителен к множеству других вариантов гиперпараметров. Мы рекомендуем скопировать алгоритм, создавший расписание, хотя это редко возможно, когда расписание создано произвольным человеческим решением. Этот тип расписания, чувствительного к ошибкам проверки, можно использовать, если его можно полностью автоматизировать, но расписания с участием человека, являющиеся функцией ошибки проверки, хрупкие и трудно воспроизводимые, поэтому мы рекомендуем избегать их. Прежде чем публиковать результаты, в которых использовался такой график, постарайтесь сделать его полностью воспроизводимым.

Как следует настроить гиперпараметры Адама?

Не все гиперпараметры Адама одинаково важны. Следующие эмпирические правила соответствуют различным «бюджетам» количества испытаний в исследовании.

  • Если в исследовании < 10 испытаний, настройте только (базовую) скорость обучения.
  • Если в исследовании 10–25 испытаний, настройте скорость обучения и beta_1 .
  • Если 25+ испытаний, настройте скорость обучения, beta_1 и epsilon .
  • Если попыток значительно больше 25, дополнительно настройте настройку beta_2 .

Учитывая, насколько сложно предоставить общие правила относительно пространств поиска и сколько точек следует выбирать из пространства поиска, рассматривайте практические правила, изложенные в этом разделе, как приблизительные рекомендации».