このページでは、強化学習の用語集について説明します。用語集のすべての用語については、こちらをクリックしてください。
A
action
強化学習では、エージェントが環境の状態間を遷移するメカニズムです。エージェントは、ポリシーを使用してアクションを選択します。
エージェント
強化学習では、ポリシーを使用して、環境の状態間の遷移から得られる期待されるリターンを最大化するエンティティ。
より一般的には、エージェントは、目標を追求するために一連のアクションを自律的に計画して実行するソフトウェアで、環境の変化に適応します。たとえば、LLM ベースのエージェントは、強化学習ポリシーを適用するのではなく、LLM を使用して計画を生成することがあります。
B
ベルマンの式
強化学習では、最適な Q 関数によって次の恒等式が満たされます。
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化学習アルゴリズムは、この ID を適用し、次の更新ルールを使用して Q ラーニングを作成します。
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
ベルマン方程式は、強化学習だけでなく、動的プログラミングにも応用できます。 ベルマンの式に関する Wikipedia のエントリをご覧ください。
C
評論家
ディープ Q-Network と同義です。
D
ディープ Q ネットワーク(DQN)
Q ラーニングでは、Q 関数を予測するディープ ニューラル ネットワーク。
Critic はディープ Q ネットワークと同義です。
DQN
Deep Q-Network の略語。
E
環境
強化学習では、エージェントを含み、エージェントがその世界の状態を観察できるようにする世界。たとえば、チェスなどのゲームや迷路などの現実世界を表現できます。エージェントが環境にアクションを適用すると、環境の状態が遷移します。
エピソード
強化学習では、エージェントが環境を学習するための各試行の繰り返し。
イプシロン欲張りポリシー
強化学習では、イプシロン確率を持つランダム ポリシーに従うポリシーか、そうでない場合貪欲ポリシーに従う。たとえば、イプシロンが 0.9 の場合、ポリシーは 90% の確率でランダム ポリシーに従い、10% の確率で欲張りポリシーに従います。
連続するエピソードでは、アルゴリズムがランダム ポリシーから欲張りポリシーに移行するため、イプシロンの値を減少させます。ポリシーをシフトすることで、エージェントはまず環境をランダムに探索してから、ランダム探索の結果を貪欲に悪用します。
エクスペリエンスのリプレイ
強化学習で、トレーニング データの時間的相関を低減するために使用される DQN 手法。エージェントは、状態遷移をリプレイ バッファに保存し、リプレイ バッファから遷移をサンプリングしてトレーニング データを作成します。
1 階
貪欲政策
強化学習では、リターンが最も高いアクションを常に選択するポリシー。
M
マルコフ決定プロセス(MDP)
意思決定モデルを表すグラフ。このモデルでは、マルコフ プロパティが保持されているという仮定の下で一連の状態をナビゲートするために決定(またはアクション)が行われます。強化学習では、このような状態間の遷移により、数値の報酬が返されます。
マルコフの性質
特定の環境のプロパティ。状態遷移は、現在の状態とエージェントのアクションに暗黙的に存在する情報によって完全に決定されます。
P
policy
強化学習では、エージェントの状態からアクションへの確率的マッピング。
Q
Q 関数
強化学習において、状態でアクションを実行し、特定のポリシーに従う場合に予想されるリターンを予測する関数。
Q 関数は状態 - 行動値関数とも呼ばれます。
Q ラーニング
強化学習において、ベルマンの式を適用して、エージェントがマルコフ決定プロセスの最適な Q 関数を学習できるようにするアルゴリズム。マルコフ決定プロセスは環境をモデル化します。
R
ランダム ポリシー
強化学習(RL)
最適なポリシーを学習するアルゴリズム ファミリー。その目標は、環境とやり取りする際のリターンを最大化することです。たとえば、ほとんどのゲームでは、勝利が最大の報酬になります。 強化学習システムは、最終的に勝利につながり、最終的に負けにつながる一連のゲームの動きを評価することで、複雑なゲームをプレイすることに長けています。
人間からのフィードバックを用いた強化学習(RLHF)
人間の評価者からのフィードバックを使用して、モデルのレスポンスの品質を向上させます。たとえば、RLHF メカニズムでは、モデルのレスポンスの品質を 👍? または spreadsheet の絵文字で評価するようユーザーに要求できます。システムは、そのフィードバックに基づいて将来のレスポンスを調整できます。
リプレイ バッファ
DQN のようなアルゴリズムで、エクスペリエンスのリプレイで使用する状態遷移を保存するためにエージェントが使用するメモリ。
return
強化学習では、特定のポリシーと特定の状態が与えられた場合、そのリターンは、エージェントが状態からエピソードの終わりまでにポリシーに従うときに受け取ると期待するすべての報酬の合計です。エージェントは、報酬の取得に必要な状態遷移に応じて報酬を割引することで、予想される報酬の遅延に対処します。
したがって、割引係数が \(\gamma\)で、 \(r_0, \ldots, r_{N}\)がエピソード終了までの報酬を示す場合、返品の計算は次のようになります。
報奨
強化学習では、環境によって定義されている、状態の行動を行った数値結果。
S
state
強化学習では、環境の現在の構成を表すパラメータ値。エージェントがアクションの選択に使用します。
状態アクション値関数
Q 関数と同義です。
T
表形式の Q 学習
強化学習では、状態とアクションのすべての組み合わせに対して Q 関数を格納するテーブルを使用して、Q 学習を実装します。
ターゲット ネットワーク
ディープ Q ラーニングでは、メインのニューラル ネットワークの安定した近似値であり、メインのニューラル ネットワークが Q 関数またはポリシーを実装します。その後、ターゲット ネットワークによって予測された Q 値でメイン ネットワークをトレーニングできます。したがって、メイン ネットワークが単独で予測した Q 値でトレーニングするときに発生するフィードバック ループを回避できます。このフィードバックを回避することで、トレーニングの安定性が向上します。
終了条件
強化学習では、エージェントが特定の状態に達した場合や、状態遷移のしきい値を超えた場合など、エピソードを終了するタイミングを決定する条件。たとえば、三目並べ(別名: 三目並べ)では、プレーヤーが 3 つの連続したスペースをマークするか、すべてのスペースをマークすると、エピソードが終了します。
軌道
強化学習において、エージェントの状態遷移のシーケンスを表すタプルのシーケンス。各タプルは、特定の状態遷移の状態、アクション、報酬、次の状態に対応します。