머신러닝 용어집: 강화 학습

이 페이지에는 강화 학습 용어집 용어가 포함되어 있습니다. 모든 용어집을 보려면 여기를 클릭하세요.

A

작업

#rl

강화 학습에서 에이전트환경상태 간에 전환하는 메커니즘입니다. 에이전트는 정책을 사용하여 작업을 선택합니다.

에이전트

#rl

강화 학습에서는 정책을 사용하여 환경상태 간 전환을 통해 얻게 되는 예상 수익을 극대화하는 항목입니다.

B

벨만 방정식

#rl

강화 학습에서 최적의 Q 함수로 충족되는 다음 ID

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

강화 학습 알고리즘은 다음 업데이트 규칙을 통해 이 ID를 적용하여 Q-learning을 만듭니다.

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

벨만 방정식은 강화 학습 외에도 동적 프로그래밍에 대한 응용이 있습니다. 벨맨 방정식에 대한 위키백과 항목을 참고하세요.

C

비평가

#rl

딥 Q-네트워크의 동의어입니다.

D

심층 네트워크 (DQN)

#rl

Q-learning에서는 Q-functions를 예측하는 심층 신경망입니다.

Critic은 Deep Q-Network의 동의어입니다.

DQN

#rl

Deep Q-Network의 약어입니다.

E

환경

#rl

강화 학습에서 에이전트를 포함하고 에이전트에서 전 세계 상태를 관찰할 수 있는 환경입니다. 예를 들어, 체스와 같은 게임이나 미로와 같은 실제 세상일 수 있습니다. 에이전트가 환경에 작업을 적용하면 환경이 상태 간에 전환됩니다.

에피소드

#rl

강화 학습에서 환경 학습을 위해 에이전트가 반복적으로 각 시도를 수행합니다.

epsilon 탐욕 정책

#rl

강화 학습에서 정책epsilon 확률을 갖는 임의 정책 또는 그 외 탐정 정책을 따르는 것입니다. 예를 들어 epsilon이 0.9인 경우 정책은 90% 는 무작위로 정책을, 10% 는 탐욕적인 정책을 따릅니다.

연속된 에피소드에서 알고리즘은 랜덤 정책의 준수에서 탐욕적인 정책 준수로 전환하기 위해 epsilon의 가치를 줄입니다. 에이전트는 정책을 변경하여 먼저 환경을 무작위로 탐색한 후 무작위 탐색의 결과를 탐욕적으로 활용합니다.

다시보기

#rl

강화 학습에서 DQN 기법은 학습 데이터의 시간적 상관관계를 줄이는 데 사용됩니다. 에이전트는 상태 전환을 재생 버퍼에 저장한 다음 재생 버퍼에서 발생한 전환을 샘플링하여 학습 데이터를 만듭니다.

G

탐욕 정책

#rl

강화 학습에서 항상 가장 높은 반품이 포함된 작업을 선택하는 정책입니다.

M

마르코프 결정 절차 (MDP)

#rl

마르코프 속성이 설정한 가정하에 일련의 상태를 탐색하기 위해 결정(또는 작업)을 수행하는 의사결정 모델을 나타내는 그래프 강화 학습에서 상태 간 이러한 전환은 숫자로 된 보상을 반환합니다.

마르코프 속성

#rl

특정 환경의 속성. 상태 전환은 현재 상태와 에이전트의 작업에 암시적인 정보에 따라 완전히 결정됩니다.

P

정책

#rl

강화 학습에서 상태에서 작업으로의 에이전트 확률적 매핑

Q

Q-함수

#rl

강화 학습에서 예상 반환을 예측하는 함수는 상태작업을 실행한 다음 특정 정책을 따릅니다.

Q 함수는 상태 작업 값 함수라고도 합니다.

Q-러닝

#rl

강화 학습에서는 벨만 방정식을 적용하여 에이전트마르코프 결정 프로세스의 최적 Q 함수를 학습할 수 있도록 하는 알고리즘입니다. 마르코프 결정 프로세스는 환경을 모델링합니다.

R

무작위 정책

#rl

강화 학습에서는 작업을 무작위로 선택하는 정책을 확인합니다.

강화 학습 (RL)

#rl

환경과 상호작용할 때 수익을 극대화하는 것이 목표인 최적의 정책을 학습하는 알고리즘 모음입니다. 예를 들어 대부분의 게임에서 얻는 궁극적인 리워드는 승리입니다. 강화 학습 시스템은 승리로 이어진 이전 게임 동작의 순서와 궁극적으로 손실로 이어진 시퀀스를 평가하여 복잡한 게임을 플레이하는 데 전문가가 될 수 있습니다.

버퍼 다시 재생

#rl

DQN과 유사한 알고리즘에서 에이전트가 환경 재생에 사용할 상태 전환을 저장하는 데 사용하는 메모리입니다.

return

#rl

강화 학습에서는 특정 정책과 특정 상태를 고려할 때 반환은 정책상태에서 에피소드가 끝날 때 받을 것으로 예상되는 모든 보상의 합계입니다. 에이전트는 보상을 얻는 데 필요한 상태 전환에 따라 보상을 할인하여 예상되는 보상의 지연된 특성을 고려합니다.

따라서 할인 계수가 \(\gamma\)이고 \(r_0, \ldots, r_{N}\) 에피소드가 끝날 때까지 보상을 나타내면 반환 계산은 다음과 같습니다.

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

리워드

#rl

강화 학습에서 환경에 정의된 대로 상태에서 작업을 수행한 수치 결과입니다.

S

state

#rl

강화 학습에서 에이전트작업을 선택하는 데 사용하는 환경의 현재 구성을 설명하는 매개변수 값입니다.

상태 작업 값 함수

#rl

Q-function의 동의어입니다.

T

테이블 형식 Q-러닝

#rl

강화 학습에서는 상태작업의 모든 조합에 대해 테이블을 사용하여 Q-함수를 저장하여 Q-learning을 구현합니다.

대상 네트워크

#rl

딥 Q-learning은 기본 신경망의 안정적인 근사치인 신경망으로, 여기서 기본 신경망은 Q 함수 또는 정책을 구현합니다. 그런 다음 대상 네트워크에서 예측한 Q-값으로 기본 네트워크를 학습시킬 수 있습니다. 따라서 기본 네트워크가 자체적으로 예측한 Q-값으로 학습할 때 발생하는 피드백 루프를 방지합니다. 이러한 피드백을 피하면 학습 안정성이 증가합니다.

종료 조건

#rl

강화 학습에서는 에이전트가 특정 상태에 도달하거나 기준 전환 횟수 기준을 초과하는 경우와 같이 에피소드가 종료되는 시점을 결정하는 조건입니다. 예를 들어 tic-tac-toe (너트 및 교차라고도 함)에서는 플레이어가 연속된 공백이 3개 표시되거나 모든 공간이 표시되면 에피소드가 종료됩니다.

궤도

#rl

강화 학습에서는 에이전트상태 전환 시퀀스를 나타내는 튜플입니다. 여기서 각 튜플은 특정 상태 전환의 상태, 작업, 보상 및 다음 상태에 해당합니다.