本頁包含強化學習學習的詞彙。如需所有詞彙詞彙,請按這裡。
A
動作
在強化學習中,代理程式在環境狀態之間的轉換機制。代理程式會使用政策來選擇動作。
服務專員
在強化學習中,使用政策的實體會盡可能提高{0環境環境之間轉換預期會發生的回傳。
B
服務型方程式
在強化學習中,下列身分最適合最佳 Q-function:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化學習演算法會使用這項更新規則,透過下列更新規則建立 Q-learning:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
除了強化學習外,Beman 方程式也提供應用程式處理動態程式設計的應用程式。請參閱「 Bellman Equation 中的 Wikipedia 項目」一節。
C
專家
深度 Q-Network 的同義詞。
D
深度 Q-Network (DQN)
在 Q-learning 中,可預測 Q-functions 的深度類神經網路。
Critic 是深度 Q-Network 的同義詞,
DQN
深度 Q-Network 的縮寫。
E
環境
強化學習體驗時,包含代理程式的世界,讓服務專員可以觀察全球的狀態。舉例來說,所代表的世界可以是棋盤等遊戲,或像迷宮這類的實體世界。當代理程式將 action 套用至環境時,環境會在狀態之間轉換。
劇集
西里爾希臘政策
強化學習時,為遵循機率或希臘政策的政策,一律適用政策。例如,如果 epsilon 為 0.9,則政策會遵守 90% 的時間隨機政策,以及 10% 的灰色政策。
逐步處理後續節目時,演算法會降低總機的價值,以便不再依據隨機政策而遵循希臘政策。移動政策後,代理程式會先隨機探索環境,接著地隨機運用隨機探索的結果。
重播功能
強化學習時,系統會使用 DQN 技巧來降低訓練資料中的時間相關性。代理程式會將狀態轉換儲存在重播緩衝區中,然後取樣重播緩衝區中的轉換,藉此建立訓練資料。
G
希臘政策
M
馬可夫決策流程 (MDP)
圖表用於呈現決策模式。在做出 Markov 屬性的許可時,在做出決策 (或「動作」) 時,能夠瀏覽一系列狀態。在「強化學習」中,各狀態之間的轉換會傳回數值「獎勵」。
馬可夫屬性
特定環境的屬性,其中狀態完全取決於目前的狀態,以及代理程式的動作。
P
policy
Q
Q 函式
在「強化學習」中,透過在狀態和政策中預測某個動作時,預期會發生回傳結果的函式。
Q-function 也稱為狀態動作值函式。
線上學習
在強化學習中,演算法可讓代理程式透過套用 Bellman 方程式,瞭解馬可夫決策程序中最佳的 Q-function。馬可夫決策程序模擬一個環境。
(右)
隨機政策
強化學習 (RL)
瞭解最佳「政策」的演算法,其目標是在與環境互動時盡可能提高「return」。舉例來說,大部分遊戲的終極獎勵是勝利。 強化學習系統可以評估之前遊戲移動的序列,最終最終會獲勝,最終導致流失。
利用人機意見強化學習 (RLHF)
使用人工評分者的意見回饋,加強模型回應的品質。例如,RLHF 機制可以要求使用者使用 Δ 或 👎? 表情符號評分模型回應品質。接著,系統就能根據這些意見回饋調整日後的回應。
重播緩衝區
在類似DQN的演算法中,代理程式用來儲存狀態轉換的記憶體,以供體驗重播使用。
回攻
依據強化政策和特定狀態,在傳回「代理程式」後,從狀態至一集這段期間,系統會傳回服務專員想獲得的所有獎勵。服務專員會根據獎勵取得所需的狀態轉換,提供折扣,以因應預期獎勵的延遲性質。
因此,如果折扣因數為 \(\gamma\),而 \(r_0, \ldots, r_{N}\)代表獎勵直到劇集結束,則回傳計算方式如下:
獎勵
六
最終的隱藏狀態
強化學習時,說明環境目前設定的參數值,可讓代理程式選擇動作。
狀態動作值函式
Q-function 的同義詞。
二
表格式學習課程
在強化學習中,使用資料表來儲存 Q-functions,讓您透過 state 和 動作的組合儲存 Q-functions。
目標聯播網
在深度學習 Q 中,類神經網路是主要類神經網路的穩定近似值,其中主要類神經網路實作了 Q-function 或政策。 接著,您可以針對目標網路預測的 Q 值訓練主要網路。因此,當主要網路針對自己預測的 Q 值進行訓練時,您就能避免意見回饋循環。避免使用這項意見回饋,訓練穩定性會增加。
終止條件
在「強化學習」中,決定「劇集」(例如代理程式達到特定狀態或超過狀態轉換門檻數量) 的條件。例如,在 tic-tac-toe 中 (也稱為 Nought 和 Crossing),只要播放器標示為三個連續的空格,或所有空格都有標示,就會終止該集節目。