이 페이지에는 강화 학습 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.
A
작업
강화 학습에서 에이전트가 환경의 상태 간에 전환하는 메커니즘입니다. 에이전트는 정책을 사용하여 작업을 선택합니다.
에이전트
강화 학습에서 정책을 사용하여 환경의 상태 간 전환에서 얻은 예상 수익을 극대화하는 항목입니다.
보다 일반적으로 에이전트란 환경 변화에 적응할 수 있는 기능을 갖추고 목표에 따라 일련의 작업을 자율적으로 계획하고 실행하는 소프트웨어입니다. 예를 들어 LLM 기반 에이전트는 강화 학습 정책을 적용하는 대신 LLM을 사용하여 계획을 생성할 수 있습니다.
B
벨만 방정식
강화 학습에서는 다음과 같은 항등원이 최적의 Q-함수에 의해 충족됩니다.
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
강화 학습 알고리즘은 이 ID를 적용하여 다음 업데이트 규칙을 통해 Q-learning을 만듭니다.
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
벨만 방정식은 강화 학습 외에도 동적 프로그래밍에도 적용할 수 있습니다. 벨만 방정식에 관한 위키백과 항목을 참고하세요.
C
비평가
Deep Q-Network의 동의어입니다.
D
DQN (Deep Q-Network)
비평가는 Deep Q-Network의 동의어입니다.
DQN
Deep Q-Network의 약어입니다.
E
환경
강화 학습에서 에이전트를 포함하고 에이전트가 해당 상태를 관찰할 수 있는 세계입니다. 예를 들어 표현된 세계는 체스와 같은 게임이나 미로와 같은 실제 세계일 수 있습니다. 에이전트가 환경에 작업을 적용하면 환경이 상태 간에 전환됩니다.
에피소드
강화 학습에서 에이전트의 환경 학습 시도는 매번 반복됩니다.
epsilon 그리디 정책
강화 학습에서 정책은 epsilon 확률과 함께 무작위 정책을 따르거나 그렇지 않으면 탐욕 정책을 따릅니다. 예를 들어 epsilon이 0.9이면 정책은 90% 는 무작위 정책을 따르고 10% 는 그리디 정책을 따릅니다.
연속된 에피소드에서 알고리즘은 임의의 정책을 따르는 것에서 탐욕적인 정책을 따르기 위해 epsilon의 값을 줄입니다. 에이전트는 정책을 이동하여 먼저 환경을 무작위로 탐색한 후 임의 탐색의 결과를 탐욕스럽게 악용합니다.
환경 다시보기
강화 학습에서 학습 데이터의 시간적 상관관계를 줄이는 데 사용되는 DQN 기법입니다. 에이전트는 재생 버퍼에 상태 전환을 저장한 다음 재생 버퍼에서 전환을 샘플링하여 학습 데이터를 만듭니다.
G
탐욕적 정책
강화 학습에서 항상 가장 높은 수익이 예상되는 작업을 선택하는 정책입니다.
월
마르코프 결정 프로세스 (MDP)
마르코프 속성이 보유한다고 가정하고 일련의 상태를 탐색하기 위해 결정(또는 작업)을 실행하는 의사 결정 모델을 나타내는 그래프입니다. 강화 학습에서 상태 간 전환은 숫자 리워드를 반환합니다.
마르코프 속성
상태 전환이 전적으로 현재 상태 및 에이전트의 작업에 내재된 정보에 따라 결정되는 특정 환경의 속성입니다.
P
policy
강화 학습에서 에이전트의 확률적 매핑은 상태에서 작업으로의 매핑입니다.
Q
Q-함수
강화 학습에서는 상태에서 행동을 수행한 다음 주어진 정책을 따를 때 예상되는 수익을 예측하는 함수입니다.
Q 함수는 상태 작업 값 함수라고도 합니다.
Q-러닝
강화 학습에서는 에이전트가 벨만 방정식을 적용하여 마르코프 결정 과정의 최적 Q-함수를 학습하도록 하는 알고리즘입니다. 마르코프 결정 프로세스는 환경을 모델링합니다.
R
임의 정책
강화 학습 (RL)
환경과 상호작용할 때 수익을 극대화하는 것이 목표인 최적의 정책을 학습하는 알고리즘 모음입니다. 예를 들어 대부분의 게임의 궁극적인 보상은 승리입니다. 강화 학습 시스템은 이전에 승리로 이어진 이전 게임 동작의 순서와 최종적으로 패배로 이어진 시퀀스를 평가하여 복잡한 게임을 능숙하게 플레이할 수 있습니다.
인간 피드백 기반 강화 학습 (RLHF)
평가자의 의견을 사용하여 모델 응답 품질 개선 예를 들어 RLHF 메커니즘은 사용자에게 👍 또는 YOUTUBE 이모티콘으로 모델의 응답 품질을 평가해 달라고 요청할 수 있습니다. 그러면 시스템은 이 의견에 따라 향후 응답을 조정할 수 있습니다.
재생 버퍼
DQN과 유사한 알고리즘에서 경험 재생에 사용하기 위해 에이전트가 상태 전환을 저장하는 데 사용하는 메모리입니다.
return
강화 학습에서는 특정 정책과 특정 상태가 주어질 때 에이전트가 상태부터 에피소드까지 정책을 따를 때 기대하는 모든 리워드의 합계가 반환됩니다. 에이전트는 보상을 얻는 데 필요한 상태 전환에 따라 보상을 할인하여 예상 보상의 지연 특성을 고려합니다.
따라서 할인 계수가 \(\gamma\)이고 \(r_0, \ldots, r_{N}\)가 에피소드가 끝날 때까지 보상을 표시하면 반환 계산은 다음과 같습니다.
리워드
강화 학습에서 환경으로 정의된 상태에서 행동을 수행한 수치 결과입니다.
S
state
강화 학습에서 에이전트가 작업을 선택하는 데 사용하는 환경의 현재 구성을 설명하는 매개변수 값입니다.
상태 작업 값 함수
Q-함수의 동의어입니다.
T
테이블 형식 Q-learning
강화 학습에서는 상태와 액션의 모든 조합에 대한 Q 함수를 저장하는 테이블을 사용하여 Q-러닝을 구현합니다.
타겟 네트워크
딥 Q-러닝에서는 주 신경망이 Q 함수 또는 정책을 구현하는 주 신경망의 안정적인 근사값인 신경망입니다. 그런 다음 타겟 네트워크에서 예측한 Q-값을 사용하여 기본 네트워크를 학습시킬 수 있습니다. 따라서 기본 네트워크가 자체적으로 예측된 Q-값으로 학습시킬 때 발생하는 피드백 루프를 방지합니다. 이 피드백을 피하면 학습 안정성이 향상됩니다.
종료 조건
강화 학습에서 에피소드가 종료되는 시점을 결정하는 조건(예: 에이전트가 특정 상태에 도달하거나 상태 전환의 임계값 수를 초과할 때)입니다. 예를 들어 tic-tac-toe (noughts 및 crosses라고도 함)에서는 플레이어가 공백 3개를 연속으로 표시하거나 모든 공백이 표시되면 에피소드가 종료됩니다.
궤적
강화 학습에서 에이전트의 상태 전환 시퀀스를 나타내는 튜플의 시퀀스입니다. 여기서 각 튜플은 주어진 상태 전환의 상태, 액션, 보상, 다음 상태에 해당합니다.