В этом приложении содержится несколько дополнительных сведений о скорости обучения.
График снижения скорости обучения
Семейство наилучших графиков затухания скорости обучения является открытой проблемой; неясно, как построить серию строгих экспериментов, чтобы уверенно ответить на этот вопрос. Хотя мы не знаем лучшего семейства расписаний, мы уверены в следующем:
- Важно иметь некоторый (непостоянный) график.
- Настройка этого графика важна.
Различные скорости обучения лучше всего работают в разное время процесса оптимизации. Наличие какого-то расписания повышает вероятность того, что модель достигнет хорошей скорости обучения.
Лучшее снижение скорости обучения по умолчанию
По умолчанию мы рекомендуем одно из следующих семейств снижения скорости обучения:
- Линейный распад
- Косинусный распад
Многие другие семейства графиков, вероятно, тоже хороши.
Почему в некоторых статьях сложные графики обучения?
Во многих научных статьях используются сложные графики затухания кусочной скорости обучения (LR). Читатели часто задаются вопросом, как авторы пришли к такому сложному графику. Многие сложные графики затухания LR являются результатом специальной настройки графика в зависимости от производительности набора проверки. То есть:
- Начните одиночный тренировочный прогон с простого затухания LR (или постоянной скорости обучения).
- Продолжайте тренироваться до тех пор, пока не станет казаться, что производительность застопорилась. Если это произойдет, приостановите тренировку. Затем возобновите его с возможно более крутым графиком затухания LR (или меньшей постоянной скоростью обучения) с этой точки. Повторите этот процесс (до окончания конференции или запуска).
Беспечное копирование полученного графика, как правило, не является хорошей идеей, поскольку лучший конкретный график чувствителен к множеству других вариантов гиперпараметров. Мы рекомендуем скопировать алгоритм, создавший расписание, хотя это редко возможно, когда расписание создано произвольным человеческим решением. Этот тип расписания, чувствительного к ошибкам проверки, можно использовать, если его можно полностью автоматизировать, но расписания с участием человека, являющиеся функцией ошибки проверки, хрупкие и трудно воспроизводимые, поэтому мы рекомендуем избегать их. Прежде чем публиковать результаты, в которых использовался такой график, постарайтесь сделать его полностью воспроизводимым.
Как следует настроить гиперпараметры Адама?
Не все гиперпараметры Адама одинаково важны. Следующие эмпирические правила соответствуют различным «бюджетам» количества испытаний в исследовании.
- Если в исследовании < 10 испытаний, настройте только (базовую) скорость обучения.
- Если в исследовании 10–25 испытаний, настройте скорость обучения и
beta_1
. - Если 25+ испытаний, настройте скорость обучения,
beta_1
иepsilon
. - Если попыток значительно больше 25, дополнительно настройте настройку
beta_2
.
Учитывая, насколько сложно предоставить общие правила относительно пространств поиска и сколько точек следует выбирать из пространства поиска, рассматривайте практические правила, изложенные в этом разделе, как приблизительные рекомендации».
,В этом приложении содержится несколько дополнительных сведений о скорости обучения.
График снижения скорости обучения
Семейство наилучших графиков затухания скорости обучения является открытой проблемой; неясно, как построить серию строгих экспериментов, чтобы уверенно ответить на этот вопрос. Хотя мы не знаем лучшего семейства расписаний, мы уверены в следующем:
- Важно иметь некоторый (непостоянный) график.
- Настройка этого графика важна.
Различные скорости обучения лучше всего работают в разное время процесса оптимизации. Наличие какого-то расписания повышает вероятность того, что модель достигнет хорошей скорости обучения.
Лучшее снижение скорости обучения по умолчанию
По умолчанию мы рекомендуем одно из следующих семейств снижения скорости обучения:
- Линейный распад
- Косинусный распад
Многие другие семейства графиков, вероятно, тоже хороши.
Почему в некоторых статьях сложные графики обучения?
Во многих научных статьях используются сложные графики затухания кусочной скорости обучения (LR). Читатели часто задаются вопросом, как авторы пришли к такому сложному графику. Многие сложные графики затухания LR являются результатом специальной настройки графика в зависимости от производительности набора проверки. То есть:
- Начните одиночный тренировочный прогон с простого затухания LR (или постоянной скорости обучения).
- Продолжайте тренироваться до тех пор, пока не станет казаться, что производительность застопорилась. Если это произойдет, приостановите тренировку. Затем возобновите его с возможно более крутым графиком затухания LR (или меньшей постоянной скоростью обучения) с этой точки. Повторите этот процесс (до окончания конференции или запуска).
Беспечное копирование полученного графика, как правило, не является хорошей идеей, поскольку лучший конкретный график чувствителен к множеству других вариантов гиперпараметров. Мы рекомендуем скопировать алгоритм, создавший расписание, хотя это редко возможно, когда расписание создано произвольным человеческим решением. Этот тип расписания, чувствительного к ошибкам проверки, можно использовать, если его можно полностью автоматизировать, но расписания с участием человека, являющиеся функцией ошибки проверки, хрупкие и трудно воспроизводимые, поэтому мы рекомендуем избегать их. Прежде чем публиковать результаты, в которых использовался такой график, постарайтесь сделать его полностью воспроизводимым.
Как следует настроить гиперпараметры Адама?
Не все гиперпараметры Адама одинаково важны. Следующие эмпирические правила соответствуют различным «бюджетам» количества испытаний в исследовании.
- Если в исследовании < 10 испытаний, настройте только (базовую) скорость обучения.
- Если в исследовании 10–25 испытаний, настройте скорость обучения и
beta_1
. - Если 25+ испытаний, настройте скорость обучения,
beta_1
иepsilon
. - Если попыток значительно больше 25, дополнительно настройте настройку
beta_2
.
Учитывая, насколько сложно предоставить общие правила относительно пространств поиска и сколько точек следует выбирать из пространства поиска, рассматривайте практические правила, изложенные в этом разделе, как приблизительные рекомендации».
,В этом приложении содержится несколько дополнительных сведений о скорости обучения.
График снижения скорости обучения
Семейство наилучших графиков затухания скорости обучения является открытой проблемой; неясно, как построить серию строгих экспериментов, чтобы уверенно ответить на этот вопрос. Хотя мы не знаем лучшего семейства расписаний, мы уверены в следующем:
- Важно иметь некоторый (непостоянный) график.
- Настройка этого графика важна.
Различные скорости обучения лучше всего работают в разное время процесса оптимизации. Наличие какого-то расписания повышает вероятность того, что модель достигнет хорошей скорости обучения.
Лучшее снижение скорости обучения по умолчанию
По умолчанию мы рекомендуем одно из следующих семейств снижения скорости обучения:
- Линейный распад
- Косинусный распад
Многие другие семейства графиков, вероятно, тоже хороши.
Почему в некоторых статьях сложные графики обучения?
Во многих научных статьях используются сложные графики затухания кусочной скорости обучения (LR). Читатели часто задаются вопросом, как авторы пришли к такому сложному графику. Многие сложные графики затухания LR являются результатом специальной настройки графика в зависимости от производительности набора проверки. То есть:
- Начните одиночный тренировочный прогон с простого затухания LR (или постоянной скорости обучения).
- Продолжайте тренироваться до тех пор, пока не станет казаться, что производительность застопорилась. Если это произойдет, приостановите тренировку. Затем возобновите его с возможно более крутым графиком затухания LR (или меньшей постоянной скоростью обучения) с этой точки. Повторите этот процесс (до окончания конференции или запуска).
Беспечное копирование полученного графика, как правило, не является хорошей идеей, поскольку лучший конкретный график чувствителен к множеству других вариантов гиперпараметров. Мы рекомендуем скопировать алгоритм, создавший расписание, хотя это редко возможно, когда расписание создано произвольным человеческим решением. Этот тип расписания, чувствительного к ошибкам проверки, можно использовать, если его можно полностью автоматизировать, но расписания с участием человека, являющиеся функцией ошибки проверки, хрупкие и трудно воспроизводимые, поэтому мы рекомендуем избегать их. Прежде чем публиковать результаты, в которых использовался такой график, постарайтесь сделать его полностью воспроизводимым.
Как следует настроить гиперпараметры Адама?
Не все гиперпараметры Адама одинаково важны. Следующие эмпирические правила соответствуют различным «бюджетам» количества испытаний в исследовании.
- Если в исследовании < 10 испытаний, настройте только (базовую) скорость обучения.
- Если в исследовании 10–25 испытаний, настройте скорость обучения и
beta_1
. - Если 25+ испытаний, настройте скорость обучения,
beta_1
иepsilon
. - Если попыток значительно больше 25, дополнительно настройте настройку
beta_2
.
Учитывая, насколько сложно предоставить общие правила относительно пространств поиска и сколько точек следует выбирать из пространства поиска, рассматривайте практические правила, изложенные в этом разделе, как приблизительные рекомендации».
,В этом приложении содержится несколько дополнительных сведений о скорости обучения.
График снижения скорости обучения
Семейство наилучших графиков затухания скорости обучения является открытой проблемой; неясно, как построить серию строгих экспериментов, чтобы уверенно ответить на этот вопрос. Хотя мы не знаем лучшего семейства расписаний, мы уверены в следующем:
- Важно иметь некоторый (непостоянный) график.
- Настройка этого графика важна.
Различные скорости обучения лучше всего работают в разное время процесса оптимизации. Наличие какого-то расписания повышает вероятность того, что модель достигнет хорошей скорости обучения.
Лучшее снижение скорости обучения по умолчанию
По умолчанию мы рекомендуем одно из следующих семейств снижения скорости обучения:
- Линейный распад
- Косинусный распад
Многие другие семейства графиков, вероятно, тоже хороши.
Почему в некоторых статьях сложные графики обучения?
Во многих научных статьях используются сложные графики затухания кусочной скорости обучения (LR). Читатели часто задаются вопросом, как авторы пришли к такому сложному графику. Многие сложные графики затухания LR являются результатом специальной настройки графика в зависимости от производительности набора проверки. То есть:
- Начните одиночный тренировочный прогон с простого затухания LR (или постоянной скорости обучения).
- Продолжайте тренироваться до тех пор, пока не станет казаться, что производительность застопорилась. Если это произойдет, приостановите тренировку. Затем возобновите его с возможно более крутым графиком затухания LR (или меньшей постоянной скоростью обучения) с этой точки. Повторите этот процесс (до окончания конференции или запуска).
Беспечное копирование полученного графика, как правило, не является хорошей идеей, поскольку лучший конкретный график чувствителен к множеству других вариантов гиперпараметров. Мы рекомендуем скопировать алгоритм, создавший расписание, хотя это редко возможно, когда расписание создано произвольным человеческим решением. Этот тип расписания, чувствительного к ошибкам проверки, можно использовать, если его можно полностью автоматизировать, но расписания с участием человека, являющиеся функцией ошибки проверки, хрупкие и трудно воспроизводимые, поэтому мы рекомендуем избегать их. Прежде чем публиковать результаты, в которых использовался такой график, постарайтесь сделать его полностью воспроизводимым.
Как следует настроить гиперпараметры Адама?
Не все гиперпараметры Адама одинаково важны. Следующие эмпирические правила соответствуют различным «бюджетам» количества испытаний в исследовании.
- Если в исследовании < 10 испытаний, настройте только (базовую) скорость обучения.
- Если в исследовании 10–25 испытаний, настройте скорость обучения и
beta_1
. - Если 25+ испытаний, настройте скорость обучения,
beta_1
иepsilon
. - Если попыток значительно больше 25, дополнительно настройте настройку
beta_2
.
Учитывая, насколько сложно предоставить общие правила относительно пространств поиска и сколько точек следует выбирать из пространства поиска, рассматривайте практические правила, изложенные в этом разделе, как приблизительные рекомендации».