このページでは、強化学習の用語集について説明します。用語集のすべての用語については、こちらをクリックしてください。
A
アクション
強化学習では、エージェントが環境の状態間を遷移するメカニズム。エージェントは、ポリシーを使用してアクションを選択します。
エージェント
強化学習では、ポリシーを使用して、環境の状態間の遷移によって期待されるリターンを最大化します。
B
ベルマン方程式
強化学習では、次の ID が最適な Q 関数で満たされます。
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化学習アルゴリズムは、次の更新ルールを介して、この ID を適用して Q 学習を作成します。
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
強化学習以外にも、ベルマン方程式には動的計画法の応用もあります。Bellman の方程式に関する Wikipedia のエントリをご覧ください。
C
評論家
ディープ Q ネットワークの類義語です。
D
ディープ Q ネットワーク(DQN)
Q 学習では、Q 関数を予測するディープ ニューラル ネットワーク。
Critic とは、Deep Q-Network の類義語です。
DQN
Deep Q-Network の略。
E
環境
強化学習では、エージェントを含む世界で、エージェントがその世界の状態を監視できるようにします。たとえば、チェスのようなゲームや、迷路のような現実世界を表現できます。エージェントが環境にアクションを適用すると、環境は状態間で遷移します。
エピソード
強化学習では、エージェントが環境を学習するために繰り返し試行します。
イプシロン グレーディ ポリシー
強化学習では、イプシロンの確率でランダム ポリシーに従うか、ポリシーを適用します。たとえば、イプシロンが 0.9 の場合、ポリシーは 90% の確率でランダムなポリシーに従い、10% の確率で食い込みポリシーを遵守します。
連続したエピソードでは、アルゴリズムがイプシロンの値を減少させ、ランダムなポリシーから皆さまからのポリシーを遵守します。ポリシーをシフトすると、エージェントはまず環境をランダムに探索し、ランダムな探索の結果を優先して使用します。
エクスペリエンスの再生
強化学習では、DQN 手法を使用して、トレーニング データの時間的な相関関係を短縮します。エージェントは、状態遷移をリプレイ バッファに格納し、リプレイ バッファからの遷移をサンプリングしてトレーニング データを作成します。
G
食料品に関するポリシー
強化学習では、ポリシーが、想定される最大の返品を伴うアクションを常に選択します。
M
マルコフの決定プロセス(MDP)
意思決定モデル(すなわち、アクション)が、マルコフ プロパティが成り立っていると仮定して一連の状態をナビゲートする意思決定モデルを表すグラフ。強化学習では、これらの状態遷移は数値の報酬を返します。
マルコフのプロパティ
特定の環境のプロパティ。状態遷移は、現在の状態とエージェントのアクションに暗黙的な情報によって完全に決定されます。
P
ポリシー
強化学習では、状態から行動へのエージェント&関係確率マッピング。
Q
Q 関数
強化学習では、予想される戻りが状態の行動を達成し、指定されたポリシーに従うことを予測する関数。
Q 関数は、状態アクション値関数とも呼ばれます。
Q ラーニング
強化学習では、エージェントが ベルマン方程式を適用して、マルコフ決定プロセスの最適な Q 関数を学習できるようにするアルゴリズム。マルコフの決定プロセスは、環境をモデル化します。
R
ランダムなポリシー
強化学習(RL)
最適なポリシーを学習するアルゴリズム ファミリー。環境とのインタラクションの際に戻りを最大化することが目標です。たとえば、ほとんどのゲームで得られる究極の報酬は勝利です。 強化学習システムは、最終的に勝利につながったゲームの移動のシーケンスと、最終的に損失につながったシーケンスを評価することで、複雑なゲームをプレイするエキスパートになることができます。
リプレイ バッファ
DQN のようなアルゴリズムでは、エージェントがエクスペリエンスのリプレイで使用するために状態遷移の格納に使用するメモリがあります。
return
強化学習では、特定のポリシーと特定の状態の場合、戻り値は、ポリシーを状態から エピソードの最後までたどる際にエージェントが受け取ることが期待されるすべての報酬の合計です。エージェントは、報酬の獲得に必要な状態の遷移に応じて特典を割引することで、期待される特典の遅延という性質を考慮します。
したがって、割引率が \(\gamma\)で、 \(r_0, \ldots, r_{N}\)がエピソードの終わりまでに報酬を示した場合、収益の計算方法は次のようになります。
報奨
強化学習では、状態が環境で定義されたアクションによって決まる結果。
S
state
強化学習では、環境の現在の構成を表すパラメータ値を、エージェントがアクションの選択に使用します。
state-action value 関数
Q-function と同義。
T
表形式の Q ラーニング
強化学習では、Q 学習を実装し、状態とアクションのすべての組み合わせに Q 関数を保存します。
ターゲット ネットワーク
ディープ Q ラーニングでは、メイン ニューラル ネットワークの安定した近似値であるニューラル ネットワーク。メイン ニューラル ネットワークは、Q 関数またはポリシーのいずれかを実装します。さらに、ターゲット ネットワークで予測された Q 値に基づいてメイン ネットワークをトレーニングします。したがって、メイン ネットワークが自身で予測された Q 値でトレーニングを行う際に発生するフィードバック ループを防止できます。このフィードバックを回避することで、トレーニングの安定性が向上します。
終了条件
強化学習では、エージェントが特定の状態に達したときや、状態が遷移のしきい値を超えたときなど、エピソードの終了を判断する条件。たとえば、tic-tac-toe(ノフとクロスとも呼ばれます)では、プレーヤーが 3 つの連続するスペースにマークを付けたり、すべてのスペースにマークが付けられたりすると、エピソードは終了します。
経過
強化学習では、エージェントの状態遷移のシーケンスを表す一連のタプル。各タプルは、状態、アクション、報酬、特定の状態遷移の次の状態に対応しています。