이 페이지에는 강화 학습 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.
A
action
강화 학습에서 에이전트가 환경의 상태 간에 전환하는 메커니즘입니다. 상담사는 정책을 사용하여 작업을 선택합니다.
에이전트
강화 학습에서 정책을 사용하여 환경의 상태 간에 전환할 때 얻은 예상 수익을 극대화하는 항목입니다.
더 일반적으로 에이전트는 목표를 달성하기 위해 일련의 작업을 자율적으로 계획하고 실행하는 소프트웨어로, 환경의 변화에 적응할 수 있는 기능을 갖추고 있습니다. 예를 들어 LLM 기반 에이전트는 강화 학습 정책을 적용하는 대신 LLM을 사용하여 계획을 생성할 수 있습니다.
B
벨만 방정식
강화 학습에서 최적의 Q-함수에 의해 충족되는 다음 정체성:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
강화 학습 알고리즘은 이 ID를 적용하여 다음 업데이트 규칙을 통해 Q-학습을 만듭니다.
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
강화 학습 외에도 벨만 방정식은 동적 프로그래밍에 적용됩니다. 벨만 방정식에 관한 위키백과 항목을 참고하세요.
C
비평가
딥 Q 네트워크의 동의어입니다.
D
DQN (Deep Q-network)
Critic은 Deep Q-Network의 동의어입니다.
DQN
딥 Q 네트워크의 약어입니다.
E
환경
강화 학습에서 에이전트가 포함되어 있고 에이전트가 해당 환경의 상태를 관찰할 수 있는 환경입니다. 예를 들어 표현된 세계는 체스와 같은 게임이거나 미로와 같은 실제 세계일 수 있습니다. 에이전트가 환경에 작업을 적용하면 환경이 상태 간에 전환됩니다.
에피소드
강화 학습에서 에이전트가 환경을 학습하기 위해 반복적으로 시도하는 각 작업입니다.
epsilon greedy 정책
강화 학습에서 에피론 확률로 무작위 정책을 따르거나 그렇지 않으면 탐욕 정책을 따르는 정책입니다. 예를 들어 이프시론이 0.9이면 정책은 90% 의 경우 무작위 정책을 따르고 10% 의 경우 탐욕스러운 정책을 따릅니다.
연속적인 에피소드에서 알고리즘은 무작위 정책을 따르는 것에서 탐욕스러운 정책을 따르는 것으로 전환하기 위해 에피론 값을 줄입니다. 정책을 전환함으로써 에이전트는 먼저 환경을 무작위로 탐색한 다음 무작위 탐색의 결과를 탐욕스럽게 활용합니다.
환경 재생
강화 학습에서 학습 데이터의 시간적 상관성을 줄이는 데 사용되는 DQN 기법입니다. 에이전트는 재생 버퍼에 상태 전환을 저장한 다음 재생 버퍼에서 전환을 샘플링하여 학습 데이터를 만듭니다.
G
탐욕스러운 정책
강화 학습에서 항상 예상 수익이 가장 높은 작업을 선택하는 정책입니다.
M
마르코프 결정 프로세스 (MDP)
마르코프 속성이 적용된다고 가정하고 결정(또는 작업)을 통해 상태의 시퀀스를 탐색하는 의사결정 모델을 나타내는 그래프입니다. 강화 학습에서 이러한 상태 간 전환은 숫자 보상을 반환합니다.
마르코프 속성
특정 환경의 속성으로, 여기서 상태 전환은 현재 상태 및 에이전트의 작업에 암시적으로 포함된 정보에 의해 완전히 결정됩니다.
P
정책
강화 학습에서 상태에서 작업으로의 에이전트의 확률적 매핑입니다.
Q
Q 함수
강화 학습에서 상태에서 작업을 실행한 후 지정된 정책을 따르는 경우 예상되는 반환을 예측하는 함수입니다.
Q 함수는 상태-작업 값 함수라고도 합니다.
Q-학습
강화 학습에서 에이전트가 벨만 방정식을 적용하여 마르코프 결정 프로세스의 최적 Q 함수를 학습할 수 있는 알고리즘입니다. 마르코프 결정 프로세스는 환경을 모델링합니다.
R
무작위 정책
강화 학습 (RL)
최적의 정책을 학습하는 알고리즘 계열로, 환경과 상호작용할 때 수익을 극대화하는 것을 목표로 합니다. 예를 들어 게임 대부분의 궁극적 보상은 승리입니다. 강화 학습 시스템은 이전 게임 동작에서 승리로 이어진 시퀀스와 패배로 이어진 시퀀스를 평가하여 복잡한 게임을 할 때 전문가가 될 수 있습니다.
인간 피드백 기반 강화 학습 (RLHF)
인간 평가자의 의견을 사용하여 모델의 대답 품질을 개선합니다. 예를 들어 RLHF 메커니즘은 사용자에게 👍 또는 👎 그림 이모티콘으로 모델의 대답 품질을 평가해 달라고 요청할 수 있습니다. 그러면 시스템은 이 의견을 바탕으로 향후 응답을 조정할 수 있습니다.
리플레이 버퍼
DQN과 유사한 알고리즘에서 에이전트가 경험 재생에 사용할 상태 전환을 저장하는 데 사용하는 메모리입니다.
리턴
강화 학습에서 특정 정책과 특정 상태가 주어지면 수익은 에이전트가 상태에서 에피소드의 끝까지 정책을 따를 때 받을 것으로 예상되는 모든 리워드의 합계입니다. 상담사는 리워드를 얻는 데 필요한 상태 전환에 따라 리워드를 할인하여 예상 리워드의 지연된 특성을 고려합니다.
따라서 할인 계수가 \(\gamma\)이고 \(r_0, \ldots, r_{N}\)이 에피소드 종료까지의 보상을 나타내는 경우 수익 계산은 다음과 같습니다.
리워드가
강화 학습에서 환경에 의해 정의된 상태에서 작업을 수행한 결과의 숫자입니다.
S
주
강화 학습에서 환경의 현재 구성을 나타내는 매개변수 값으로, 에이전트가 작업을 선택하는 데 사용합니다.
상태-액션 값 함수
Q 함수의 동의어입니다.
T
표 형식 Q-학습
강화 학습에서 테이블을 사용하여 상태와 작업의 모든 조합에 대한 Q 함수를 저장하여 Q 학습을 구현합니다.
타겟 네트워크
딥 Q-러닝에서 기본 신경망의 안정적인 근사치인 신경망으로, 기본 신경망은 Q-함수 또는 정책을 구현합니다. 그런 다음 타겟 네트워크에서 예측한 Q 값을 사용하여 기본 네트워크를 학습할 수 있습니다. 따라서 기본 네트워크가 자체적으로 예측한 Q 값을 기반으로 학습할 때 발생하는 피드백 루프를 방지할 수 있습니다. 이러한 피드백을 방지하면 학습 안정성이 향상됩니다.
종료 조건
강화 학습에서 에피소드가 종료되는 시점을 결정하는 조건입니다(예: 상담사가 특정 상태에 도달하거나 상태 전환 기준 수를 초과하는 경우). 예를 들어 틱택토 (또는 십자와 원)에서는 플레이어가 연속으로 3개의 공간을 표시하거나 모든 공간을 표시하면 에피소드가 종료됩니다.
궤적
강화 학습에서 에이전트의 상태 전환 시퀀스를 나타내는 튜플 시퀀스입니다. 여기서 각 튜플은 상태, 작업, 보상, 특정 상태 전환의 다음 상태에 해당합니다.