本頁面包含強化學習的字彙表。如要查看所有詞彙表術語,請按這裡。
A
動作
在強化學習中,代理程式在環境的狀態之間轉換的機制。助理會使用政策選擇動作。
服務專員
在強化學習中,使用政策的實體,可在環境的狀態之間轉換時,盡量提高預期的報酬。
更廣義來說,代理程式是一種軟體,可自行規劃及執行一系列動作來達成目標,並能因應環境變更。舉例來說,以 LLM 為基礎的代理程式可能會使用 LLM 產生計畫,而非套用強化學習政策。
B
Bellman 方程式
在強化學習中,最佳 Q 函式 會滿足下列等式:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化學習演算法會套用此識別碼,透過下列更新規則建立Q-learning:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
除了強化學習之外,Bellman 方程式也適用於動態規劃。請參閱 維基百科的 Bellman 方程式條目。
C
評論家
與 Deep Q-Network 同義。
D
深度 Q 網路 (DQN)
Critic 是 Deep Q-Network 的同義詞。
DQN
深度 Q 網路的縮寫。
E
環境
在強化學習中,世界包含代理程式,並允許代理程式觀察該世界狀態。舉例來說,所呈現的世界可以是象棋等遊戲,或是迷宮等實體世界。當代理程式將動作套用至環境時,環境就會在狀態之間轉換。
劇集
ϵ 貪婪政策
在強化學習中,政策會依據以小數值機率為準的隨機政策,或依據貪婪政策。舉例來說,如果 epsilon 為 0.9,則政策會在 90% 的時間內遵循隨機政策,在 10% 的時間內遵循貪婪政策。
在連續的劇集中,演算法會降低 epsilon 的值,從遵循隨機政策轉為遵循貪婪政策。透過轉移政策,代理程式會先隨機探索環境,然後貪婪地利用隨機探索的結果。
體驗重播
在強化學習中,DQN 技術可用於減少訓練資料中的時間相關性。代理程式會將狀態轉換儲存在重播緩衝區中,然後從重播緩衝區取樣轉換,以建立訓練資料。
G
貪婪政策
M
馬可夫決策程序 (MDP)
這張圖表代表決策模型,在該模型中,系統會在假設馬可夫屬性成立的情況下,透過決策 (或動作) 導覽一連串狀態。在強化學習中,狀態之間的這些轉換會傳回數值獎勵。
馬可夫定律
特定 環境的屬性,其中狀態轉換完全由目前狀態中隱含的資訊和代理程式的動作決定。
P
政策
Q
Q 函式
在強化學習中,這個函式會預測在狀態中採取動作,然後遵循指定的政策,並預測預期的回報。
Q 函式也稱為狀態-動作值函式。
Q 學習
在強化學習中,這個演算法可讓代理程式透過套用貝爾曼方程式,學習馬可夫決策程序的最佳Q 函式。馬可夫決策程序會模擬環境。
R
隨機政策
強化學習 (RL)
一系列演算法,可學習最佳政策,其目標是在與環境互動時,盡量提高回報。舉例來說,大多數遊戲的最終獎勵都是勝利。強化學習系統可評估先前遊戲的動作序列,找出最終導致勝利和失敗的序列,進而成為複雜遊戲的專家。
人類回饋增強學習 (RLHF)
使用人工評分員的意見回饋,改善模型回覆的品質。舉例來說,RLHF 機制可以要求使用者使用 👍? 或 👎? 表情符號評分模型回應的品質。系統就能根據這些意見回饋調整日後的回應。
重播緩衝區
在 DQN 類似演算法中,代理程式會使用記憶體儲存狀態轉換,以便在經驗重播中使用。
回攻
在強化學習中,如果有特定政策和特定狀態,回報就是代理程式從狀態��到情境結束時,按照政策所預期收到的所有獎勵總和。代理程式會根據取得獎勵所需的狀態轉換,對獎勵進行折扣,以反映預期獎勵的延遲性質。
因此,如果折扣係數為 \(\gamma\),且 \(r_0, \ldots, r_{N}\)表示獎勵直到劇集結束,則回報計算方式如下:
獎勵
S
州
在強化學習中,參數值會描述環境的目前設定,代理程式會使用這些設定來選擇動作。
狀態-動作值函式
與 Q 函式 同義。
T
表格式 Q 學習
在強化學習中,針對每個 狀態和 動作 組合,使用資料表儲存Q 函式,藉此實作Q-learning。
目標聯播網
在 Deep Q-learning 中,類神經網路是主類神經網路的穩定近似值,主類神經網路會實作 Q 函式或政策。接著,您可以根據目標網路預測的 Q 值訓練主要網路。因此,您可以避免主網路在訓練自身預測的 Q 值時發生的回饋迴圈。避免這類回饋,可提高訓練穩定性。
終止條件
在強化學習中,決定情節結束的條件,例如當代理程式達到特定狀態或超過狀態轉換的閾值數量時。舉例來說,在連連看 (又稱為「井字棋」) 中,如果玩家連續標記三個格子,或所有格子都已標記,則該回合就會結束。