На этой странице содержится глоссарий терминов обучения с подкреплением. Чтобы просмотреть все термины глоссария, нажмите здесь .
А
действие
В обучении с подкреплением — механизм, с помощью которого агент переходит между состояниями окружающей среды . Агент выбирает действие, используя политику .
агент
В обучении с подкреплением - сущность, которая использует политику для максимизации ожидаемой отдачи , полученной от перехода между состояниями среды .
В более общем смысле, агент — это программное обеспечение, которое автономно планирует и выполняет ряд действий для достижения цели, имея возможность адаптироваться к изменениям в окружающей среде. Например, агент на основе LLM может использовать LLM для создания плана вместо применения политики обучения с подкреплением.
Б
уравнение Беллмана
При обучении с подкреплением оптимальная Q-функция удовлетворяет следующему тождеству:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Алгоритмы обучения с подкреплением применяют эту идентичность для создания Q-обучения с помощью следующего правила обновления:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Помимо обучения с подкреплением, уравнение Беллмана находит применение в динамическом программировании. См . статью в Википедии об уравнении Беллмана .
С
критик
Синоним Deep Q-Network .
Д
Глубокая Q-сеть (DQN)
В Q-learning — глубокая нейронная сеть , предсказывающая Q-функции .
Критик — синоним Deep Q-Network.
ДКН
Аббревиатура Deep Q-Network .
Э
среда
В обучении с подкреплением — мир, в котором находится агент и который позволяет агенту наблюдать за состоянием этого мира. Например, представленный мир может быть игрой, например шахматами, или физическим миром, например лабиринтом. Когда агент применяет действие к среде, среда переходит между состояниями.
эпизод
При обучении с подкреплением — каждая из повторяющихся попыток агента изучить окружающую среду .
жадная политика Эпсилон
В обучении с подкреплением - политика , которая следует либо случайной политике с эпсилон-вероятностью, либо жадной политике в противном случае. Например, если эпсилон равен 0,9, то политика следует случайной политике в 90% случаев и жадной политике в 10% случаев.
В последовательных эпизодах алгоритм уменьшает значение эпсилона, чтобы перейти от следования случайной политике к жадной политике. Изменяя политику, агент сначала случайным образом исследует окружающую среду, а затем жадно использует результаты случайного исследования.
повтор опыта
В обучении с подкреплением — метод DQN, используемый для уменьшения временных корреляций в обучающих данных. Агент сохраняет переходы состояний в буфере воспроизведения , а затем выбирает переходы из буфера воспроизведения для создания обучающих данных.
Г
жадная политика
В обучении с подкреплением — политика , которая всегда выбирает действие с наибольшей ожидаемой отдачей .
М
Марковский процесс принятия решений (MDP)
Граф, представляющий модель принятия решений, в которой решения (или действия ) принимаются для навигации по последовательности состояний в предположении, что сохраняется марковское свойство . При обучении с подкреплением эти переходы между состояниями возвращают числовое вознаграждение .
Марковская недвижимость
Свойство определенных сред , в которых переходы между состояниями полностью определяются информацией, скрытой в текущем состоянии и действиях агента.
П
политика
В обучении с подкреплением — вероятностное отображение агентом состояний и действий .
вопрос
Q-функция
В обучении с подкреплением - функция, которая прогнозирует ожидаемую прибыль от выполнения действия в определенном состоянии и последующего следования заданной политике .
Q-функция также известна как функция значения состояния-действия .
Q-обучение
В обучении с подкреплением — алгоритм, который позволяет агенту изучить оптимальную Q-функцию марковского процесса принятия решений, применяя уравнение Беллмана . Марковский процесс принятия решений моделирует окружающую среду .
Р
случайная политика
В обучении с подкреплением — политика , которая выбирает действие случайным образом.
обучение с подкреплением (RL)
Семейство алгоритмов, которые изучают оптимальную политику , цель которой — максимизировать отдачу при взаимодействии с окружающей средой . Например, высшая награда в большинстве игр — победа. Системы обучения с подкреплением могут стать экспертами в сложных играх, оценивая последовательности предыдущих игровых ходов, которые в конечном итоге привели к победам, и последовательности, которые в конечном итоге привели к поражениям.
Обучение с подкреплением на основе обратной связи с человеком (RLHF)
Использование отзывов оценщиков для улучшения качества ответов модели. Например, механизм RLHF может попросить пользователей оценить качество ответа модели с помощью смайликов 👍 или 👎. Затем система может скорректировать свои будущие ответы на основе этой обратной связи.
буфер воспроизведения
В DQN -подобных алгоритмах — память, используемая агентом для хранения переходов состояний для использования при воспроизведении опыта .
возвращаться
При обучении с подкреплением при наличии определенной политики и определенного состояния доход представляет собой сумму всех вознаграждений , которые агент ожидает получить при следовании политике от состояния до конца эпизода . Агент учитывает отложенный характер ожидаемых вознаграждений, дисконтируя вознаграждения в соответствии с переходами состояний, необходимыми для получения вознаграждения.
Следовательно, если коэффициент дисконтирования \(\gamma\), и \(r_0, \ldots, r_{N}\)обозначаем награды до конца эпизода, тогда расчет возврата будет следующим:
награда
В обучении с подкреплением — числовой результат выполнения действия в состоянии , определенном окружающей средой .
С
состояние
В обучении с подкреплением — значения параметров, описывающие текущую конфигурацию среды, которую агент использует для выбора действия .
функция значения состояния-действия
Синоним Q-функции .
Т
табличное Q-обучение
В обучении с подкреплением реализация Q-обучения с использованием таблицы для хранения Q-функций для каждой комбинации состояния и действия .
целевая сеть
В Deep Q-learning — нейронная сеть, представляющая собой стабильную аппроксимацию основной нейронной сети, где основная нейронная сеть реализует либо Q-функцию , либо политику . Затем вы можете обучить основную сеть значениям Q, предсказанным целевой сетью. Таким образом, вы предотвращаете петлю обратной связи, которая возникает, когда основная сеть обучается на значениях Q, предсказанных ею самой. Избегая этой обратной связи, стабильность тренировки увеличивается.
условие завершения
В обучении с подкреплением — условия, определяющие окончание эпизода , например, когда агент достигает определенного состояния или превышает пороговое количество переходов между состояниями. Например, в игре «крестики-нолики» (также известной как крестики-нолики) эпизод заканчивается либо тогда, когда игрок отмечает три последовательных пробела, либо когда отмечены все пробелы.
траектория
В обучении с подкреплением — последовательность кортежей , которые представляют собой последовательность переходов состояний агента , где каждый кортеж соответствует состоянию, действию , вознаграждению и следующему состоянию для данного перехода состояний.