머신러닝 용어집: 강화 학습

이 페이지에는 강화 학습 용어집이 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

작업

#rl

강화 학습에서 에이전트환경상태 간에 전환하는 메커니즘입니다. 에이전트는 정책을 사용하여 작업을 선택합니다.

에이전트

#rl

강화 학습에서 정책을 사용하여 환경상태 전환을 통해 얻을 수 있는 예상 수익을 극대화하는 항목입니다.

벨만 방정식

#rl

강화 학습에서 최적의 Q-함수로 충족되는 다음 ID입니다.

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

강화 학습 알고리즘은 이 ID를 적용하여 다음 업데이트 규칙을 통해 Q-learning을 만듭니다.

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

강화 학습 외에도 벨만 방정식은 동적 프로그래밍에 적용됩니다. 벨맨 등식에 관한 위키백과 항목을 참고하세요.

C

비평가

#rl

딥 Q-네트워크의 동의어입니다.

D

DQN (Deep Q-Network)

#rl

Q-learning에서 Q-함수를 예측하는 심층 신경망

Critic은 Deep Q-Network의 동의어입니다.

DQN

#rl

Deep Q-Network의 약어입니다.

E

환경

#rl

강화 학습에서 에이전트가 포함되고 에이전트가 해당 환경의 상태를 관찰할 수 있는 세계. 예를 들어 체스와 같은 게임이나 미로와 같은 실제 세상이 될 수 있습니다. 에이전트가 환경에 작업을 적용하면 환경이 상태 간에 전환됩니다.

에피소드

#rl

강화 학습에서 에이전트환경을 학습할 때마다 반복합니다.

epsilon 탐욕 정책

#rl

강화 학습에서 정책은 epsilon 확률이 있는 무작위 정책 또는 그 외의 경우 탐욕적인 정책을 따릅니다. 예를 들어 epsilon이 0.9이면 정책은 무작위 정책을 90% 따르고 탐욕 정책도 10% 실행합니다.

연속적인 에피소드에서는 알고리즘이 epsilon의 값을 줄여 무작위 정책을 따르며 탐욕적인 정책을 따르게 합니다. 이 정책은 정책을 변경하여 우선 환경을 무작위로 탐색한 다음 무작위 탐색의 결과를 탐욕적으로 악용합니다.

환경 다시보기

#rl

강화 학습에서 DQN 기법은 학습 데이터의 시간 상관관계를 줄이는 데 사용됩니다. 에이전트는 상태 전환을 재생 버퍼에 저장한 다음, 재생 버퍼에서 발생한 전환을 샘플링하여 학습 데이터를 만듭니다.

G

탐욕 정책

#rl

강화 학습에서 항상 가장 높은 return이 있는 작업을 선택하는 정책

M

마르코프 결정 절차 (MDP)

#rl

마르코프 속성이 갖고 있는 가정에서 일련의 상태를 결정하기 위해 의사 결정(또는 작업)을 취하는 의사 결정 모델을 나타내는 그래프 강화 학습에서는 이러한 상태 간 전환이 숫자 보상을 반환합니다.

마르코프 속성

#rl

특정 환경의 속성이며, 상태 전환은 현재 상태와 에이전트의 작업에서 암시적인 정보로 완전히 결정됩니다.

P

policy

#rl

강화 학습에서 상태에서 작업으로 에이전트의 확률적 매핑

Q

Q 함수

#rl

강화 학습에서 예상 돌아가기를 예측하는 함수는 상태에서 작업을 실행한 다음 특정 정책을 따릅니다.

Q 함수는 상태 작업 값 함수라고도 합니다.

Q-학습

#rl

강화 학습에서는 에이전트벨만 방정식을 적용하여 마르코프 결정 프로세스의 최적 Q 함수를 학습하도록 하는 알고리즘입니다. 마르코프 결정 프로세스는 환경을 모델링합니다.

오른쪽

무작위 정책

#rl

강화 학습에서는 작업을 무작위로 선택하는 정책을 사용합니다.

강화 학습 (RL)

#rl

환경과 상호작용할 때 수익을 극대화하는 것이 목표인 최적의 정책을 학습하는 알고리즘군입니다. 예를 들어 대부분의 게임에서 궁극적인 보상은 승리입니다. 강화 학습 시스템은 이전 게임 동작에서 승리로 이어진 시퀀스와 최종적으로 손실로 이어진 시퀀스를 평가하여 복잡한 게임을 플레이하는 전문가가 될 수 있습니다.

인간의 피드백을 통한 강화 학습 (RLHF)

#생성 AI
#rl

평가자의 의견을 활용하여 모델 응답의 품질을 개선합니다. 예를 들어 RLHF 메커니즘은 사용자에게 👍 또는 設 이모티콘을 사용하여 모델 응답의 품질을 평가하도록 요청할 수 있습니다. 그러면 시스템은 이 피드백에 따라 향후 응답을 조정할 수 있습니다.

리플레이 버퍼

#rl

DQN과 유사한 알고리즘에서 에이전트가 환경 재생에 사용하기 위해 상태 전환을 저장하는 데 사용하는 메모리입니다.

리턴

#rl

강화 학습에서 특정 정책과 특정 상태를 고려하여 반환은 정책상태에 따라 에피소드의 끝까지 따라갈 때 에이전트가 받을 것으로 예상되는 모든 보상의 합계입니다. 에이전트는 보상을 얻는 데 필요한 상태 전환에 따라 보상을 할인하여 예상되는 보상의 지연된 특성을 고려합니다.

따라서 할인 계수가 \(\gamma\)이고 \(r_0, \ldots, r_{N}\)에피소드가 끝날 때까지 보상을 표시하면 반환 계산은 다음과 같습니다.

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

리워드

#rl

강화 학습에서 환경에 정의된 대로 상태작업을 실행한 결과입니다.

S

최종 은닉 상태를

#rl

강화 학습에서 에이전트작업을 선택하는 데 사용하는 환경의 현재 구성을 설명하는 매개변수 값입니다.

상태 작업 값 함수

#rl

Q-함수의 동의어입니다.

T

테이블 형식 Q-러닝

#rl

강화 학습에서 모든 상태작업의 조합에 대해 Q-함수를 저장하는 테이블을 사용하여 Q-러닝을 구현합니다.

대상 네트워크

#rl

딥 러닝(Deep Q-learning)은 기본 신경망이 Q 함수 또는 정책을 구현하는 기본 신경망의 안정적인 근사값인 신경망입니다. 그런 다음 대상 네트워크에서 예측한 Q-값으로 기본 네트워크를 학습시킬 수 있습니다. 따라서 기본 네트워크가 자체적으로 예측하는 Q-값으로 학습할 때 발생하는 피드백 루프를 방지합니다. 이 피드백을 피하면 학습 안정성이 향상됩니다.

종료 조건

#rl

강화 학습에서 에이전트가 특정 상태에 도달하거나 기준 전환 횟수 기준을 초과하는 경우와 같이 에피소드가 종료되는 시점을 결정하는 조건 예를 들어 tic-tac-toe (노트 및 십자라고도 함)에서는 플레이어가 연속된 세 공간을 연속으로 표시하거나 모든 공간을 표시할 때 에피소드가 종료됩니다.

궤적

#rl

강화 학습에서 에이전트상태 전환 시퀀스를 나타내는 튜플 시퀀스입니다. 여기서 각 튜플은 상태, 작업, 보상에 대응하며, 지정된 상태 전환의 다음 상태에 해당합니다.