本頁提供 Reforceforcement Learning 詞彙表。如要查看所有詞彙詞彙,請按這裡。
A
動作
在「強化學習」中,代理程式在環境的狀態之間轉換的機制。代理程式使用政策來選擇動作。
服務專員
在「強化學習」中,使用政策的實體最大化,因為在環境的狀態之間轉換時,可能會獲得預期的退貨。
B
Bellman 方程式
在強化學習中,下列 Q 函式符合以下身分:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化學習演算法會透過下列更新規則,套用這個身分來建立Q-learning:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
除了強化學習以外,Bellman 方程式也適合用於動態程式設計。請參閱 Bellman 方程式的維基百科條目。
C
專家
Deep Q-Network 的同義詞。
D
深度 Q 網路 (DQN)
Q-learning 是深層類神經網路,可預測 Q-函數。
Critic 是 Deep Q-Network 的同義詞。
DQN
深度 Q-Network 的縮寫。
E
environment
強化學習中,包含代理程式的世界,可讓服務專員觀察世界的狀態。舉例來說,呈現的世界可以是西洋棋遊戲,或是實體迷宮等遊戲。代理程式對環境套用「動作」時,環境之間會轉換。
劇集
eresilon greedy 政策
強化學習中一項政策,可遵循隨機政策和上游機率計畫,否則可能為灰色政策。舉例來說,如果 epsilon 為 0.9,就表示該政策有 90% 的時間遵循隨機政策,而 10% 的時間則會採用灰色政策。
隨著連續劇發生,演算法會減少 epsilon 的值,從遵循隨機政策改為採用灰色政策。調整政策後,代理程式會先隨機探索環境,然後巧妙地利用隨機探索的結果。
體驗重播
強化學習是使用 DQN 技巧,可降低訓練資料中的時間關聯性。代理程式會將狀態轉換儲存在「重播緩衝區」中,接著從重播緩衝區進行轉換以建立訓練資料。
G
灰色政策
M
Markov 決策程序 (MDP)
這張圖表代表決策決策 (或 動作) 以可假設 Markov 屬性保有的假設,方便您瀏覽一系列狀態。在強化學習中,狀態之間的轉換會傳回數值獎勵。
Markov 屬性
特定環境的屬性,其中狀態轉換完全取決於目前狀態和代理程式動作中的資訊隱含。
P
policy
Q
Q 函式
在「強化學習」中,這個函式會預測在狀態時,透過執行動作、動作。
Q 函式也稱為狀態動作值函式。
學習學習
在「強化學習」中,這個演算法可讓 Agent 透過套用 Bellman 方程式,學習 Markov 決策程序的最佳 Q 函式。Markov 決策程序會模擬環境。
R
隨機政策
強化學習 (RL)
一組用於瞭解最佳政策的演算法,目標是在與環境互動時盡量提高退貨。舉例來說,大部分遊戲的終極獎勵都是勝利。 強化學習系統可評估先前的遊戲動作順序,進而贏得最終勝利關卡,進而成為複雜遊戲的專家。
重播緩衝區
在類似 DQN 的演算法中,代理程式用來儲存狀態轉換的記憶體會用於體驗重播。
回傳
強化學習中,在特定政策和特定狀態下,傳回等於 agent 從 狀態到 訂閱結尾時,所收到的所有獎勵總和。服務專員會根據取得獎勵所需的狀態轉換,提供折扣來考量預期獎勵的延遲性質。
因此,如果折扣係數為 \(\gamma\),且 \(r_0, \ldots, r_{N}\)表示在劇集結束前的獎勵,則退貨計算方式如下:
獎勵
S
州
在強化學習中,說明環境目前設定的參數值,代理程式用來選擇動作。
狀態動作值函式
Q-function 的同義詞。
T
表格型 Q 學習
在強化學習中,使用資料表來儲存狀態和動作的每個組合儲存 Q 函式。
目標網路
在深度學習 Q 學習中,類神經網路是主要類神經網路的近似值,其中主要類神經網路可實作 Q 函式或政策。接著,您可以訓練目標網路預測的 Q 值中的主要網路。因此,您可以防止主要網路在自行預測的 Q 值上進行訓練時產生意見回饋循環。透過避免這項意見回饋,訓練的穩定性就會提高。
終止條件
在強化學習中,用來決定劇集「when numbers」或例如,在井字遊戲 (也稱為「打鼾和十字」) 中,當玩家標示為三個連續的空格或所有空格都標示違規時,單集節目就會終止。
軌跡
在「強化學習」中,元組的序列依序代表代理程式的狀態一系列轉換,其中每個元組都對應至狀態、動作、獎勵以及後續狀態轉換的下一個狀態。