このページでは、強化学習の用語集の用語について説明します。用語集のすべての用語については、こちらをクリックしてください。
A
アクション
強化学習では、エージェントが環境の状態を遷移するメカニズムです。エージェントは、ポリシーを使用してアクションを選択します。
エージェント
強化学習では、ポリシーを使用して、環境の状態間の遷移から得られる期待されるリターンを最大化するエンティティ。
より一般的な意味で、エージェントとは、目標を達成するために一連のアクションを自律的に計画して実行し、環境の変化に適応できるソフトウェアです。たとえば、LLM ベースのエージェントは、強化学習ポリシーを適用するのではなく、LLM を使用してプランを生成できます。
B
ベルマン方程式
強化学習では、最適な Q 関数によって次の同一性が満たされます。
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化学習アルゴリズムはこの ID を適用して、次の更新ルールを介して Q 学習を作成します。
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
ベルマンの式は、強化学習以外にも、動的プログラミングにも応用できます。 ベルマン方程式の Wikipedia エントリをご覧ください。
C
批評家
Deep Q-Network と同義。
D
Deep Q-Network(DQN)
Q 学習では、Q 関数を予測するディープ ニューラル ネットワーク。
Critic は Deep Q-Network の類義語です。
DQN
Deep Q-Network の略称。
E
環境
強化学習では、エージェントが含まれ、エージェントがその世界の状態を観察できる世界。たとえば、表現された世界は、チェスのようなゲームや迷路のような物理的な世界にすることができます。エージェントが環境にアクションを適用すると、環境は状態間を遷移します。
エピソード
強化学習では、エージェントが環境を学習するために繰り返す試行のことです。
イプシロン グリーディ ポリシー
強化学習におけるポリシー。ε 確率でランダム ポリシーに従うか、そうでない場合は貪欲ポリシーに従います。たとえば、ε が 0.9 の場合、ポリシーは 90% の確率でランダム ポリシーに従い、10% の確率で貪欲ポリシーに従います。
アルゴリズムは、連続するエピソードを通じて、ランダムなポリシーの実行から貪欲なポリシーの実行に移行するために、ε の値を減らします。ポリシーをシフトすることで、エージェントはまず環境をランダムに探索し、次にランダム探索の結果を貪欲にエクスプロイトします。
エクスペリエンスの再現
強化学習では、トレーニング データの時間的関連性を低減するために DQN 手法が使用されます。エージェントは、状態遷移を再生バッファに保存し、再生バッファから遷移をサンプリングしてトレーニング データを作成します。
G
貪欲なポリシー
強化学習におけるポリシー。期待されるリターンが最も高いアクションを常に選択します。
M
マルコフ決定プロセス(MDP)
マルコフ特性が成立することを前提として、決定(またはアクション)が下され、状態のシーケンスをナビゲートする意思決定モデルを表すグラフ。強化学習では、これらの状態間の遷移は数値の報酬を返します。
マルコフ特性
特定の環境のプロパティ。状態遷移は、現在の状態とエージェントのアクションに暗黙的に含まれる情報によって完全に決定されます。
P
ポリシー
強化学習では、状態からアクションへのエージェントの確率的マッピング。
Q
Q 関数
強化学習では、状態でアクションを実行し、特定のポリシーに従うことで得られる予想されるリターンを予測する関数。
Q 関数は、状態行動価値関数とも呼ばれます。
Q 学習
強化学習では、ベルマン方程式を適用して、エージェントがマルコフ決定プロセスの最適な Q 関数を学習できるようにするアルゴリズムです。マルコフ決定プロセスは環境をモデル化します。
R
ランダム ポリシー
強化学習(RL)
最適なポリシーを学習するアルゴリズム ファミリー。環境とやり取りする際のリターンを最大化することを目的としています。たとえば、ほとんどのゲームの最終的な報酬は勝利です。強化学習システムは、最終的に勝利につながった過去のゲームの動きと、最終的に敗北につながった動きのシーケンスを評価することで、複雑なゲームのプレイのエキスパートになることができます。
人間からのフィードバックを用いた強化学習(RLHF)
人間のレーティング エージェントからのフィードバックを使用して、モデルの回答の品質を向上させる。たとえば、RLHF メカニズムでは、モデルのレスポンスの品質を 👍? または 👎? の絵文字で評価するようユーザーに求める場合があります。システムは、そのフィードバックに基づいて今後のレスポンスを調整できます。
リプレイ バッファ
DQN のようなアルゴリズムでは、エージェントがエクスペリエンスの再現で使用する状態遷移を保存するために使用するメモリ。
リターン
強化学習では、特定のポリシーと特定の状態が与えられると、リターンは、エージェントが状態からエピソードの終わりまでポリシーに従って受け取ると予想されるすべての報酬の合計です。エージェントは、報酬の獲得に必要な状態遷移に応じて報酬を割り引くことで、期待される報酬の遅延を考慮します。
したがって、割引率が \(\gamma\)で、エピソードの終了までの報酬が \(r_0, \ldots, r_{N}\)の場合、リターンの計算は次のようになります。
特典
強化学習では、環境で定義されている状態でアクションを実行した結果の数値です。
S
state
強化学習では、環境の現在の構成を表すパラメータ値。エージェントがアクションの選択に使用します。
状態アクション価値関数
Q 関数の類義語。
T
表形式の Q 学習
強化学習では、テーブルを使用して状態とアクションの組み合わせごとにQ 関数を保存することで、Q 学習を実装します。
ターゲット ネットワーク
Deep Q-learning では、メインのニューラル ネットワークの安定した近似であるニューラル ネットワーク。メインのニューラル ネットワークは、Q 関数またはポリシーを実装します。次に、ターゲット ネットワークによって予測された Q 値でメイン ネットワークをトレーニングできます。したがって、メイン ネットワークが自身で予測した Q 値でトレーニングするときに発生するフィードバック ループを防ぐことができます。このフィードバックを回避することで、トレーニングの安定性が向上します。
終了条件
強化学習では、エージェントが特定の状態に達したときや、状態遷移のしきい値を超えたときなど、エピソードが終了するタイミングを決定する条件。たとえば、オセロでは、プレイヤーが連続する 3 つのマスにマークを付けるか、すべてのマスにマークを付けると、エピソードが終了します。
軌道
強化学習では、エージェントの状態遷移のシーケンスを表すタプルのシーケンス。各タプルは、状態、アクション、報酬、特定の状態遷移の次の状態に対応します。