機器學習詞彙表:強化學習

本頁包含強化學習學習的詞彙。如需所有詞彙詞彙,請按這裡

A

動作

#rl

強化學習中,代理程式環境狀態之間的轉換機制。代理程式會使用政策來選擇動作。

服務專員

#rl

強化學習中,使用政策的實體會盡可能提高{0環境環境之間轉換預期會發生的回傳

B

服務型方程式

#rl

在強化學習中,下列身分最適合最佳 Q-function

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化學習演算法會使用這項更新規則,透過下列更新規則建立 Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

除了強化學習外,Beman 方程式也提供應用程式處理動態程式設計的應用程式。請參閱「 Bellman Equation 中的 Wikipedia 項目」一節。

C

專家

#rl

深度 Q-Network 的同義詞。

D

深度 Q-Network (DQN)

#rl

Q-learning 中,可預測 Q-functions 的深度類神經網路

Critic 是深度 Q-Network 的同義詞,

DQN

#rl

深度 Q-Network 的縮寫。

E

環境

#rl

強化學習體驗時,包含代理程式的世界,讓服務專員可以觀察全球的狀態。舉例來說,所代表的世界可以是棋盤等遊戲,或像迷宮這類的實體世界。當代理程式將 action 套用至環境時,環境會在狀態之間轉換。

劇集

#rl

強化學習時,代理程式不斷學習環境

西里爾希臘政策

#rl

強化學習時,為遵循機率或希臘政策政策,一律適用政策例如,如果 epsilon 為 0.9,則政策會遵守 90% 的時間隨機政策,以及 10% 的灰色政策。

逐步處理後續節目時,演算法會降低總機的價值,以便不再依據隨機政策而遵循希臘政策。移動政策後,代理程式會先隨機探索環境,接著地隨機運用隨機探索的結果。

重播功能

#rl

強化學習時,系統會使用 DQN 技巧來降低訓練資料中的時間相關性。代理程式會將狀態轉換儲存在重播緩衝區中,然後取樣重播緩衝區中的轉換,藉此建立訓練資料。

G

希臘政策

#rl

在強化學習中,制定政策時,會選擇預期最高的傳回動作。

M

馬可夫決策流程 (MDP)

#rl

圖表用於呈現決策模式。在做出 Markov 屬性的許可時,在做出決策 (或「動作」) 時,能夠瀏覽一系列狀態「強化學習」中,各狀態之間的轉換會傳回數值「獎勵」

馬可夫屬性

#rl

特定環境的屬性,其中狀態完全取決於目前的狀態,以及代理程式的動作

P

policy

#rl

強化學習時,「代理程式」的機率從狀態動作

Q

Q 函式

#rl

「強化學習」中,透過在狀態政策中預測某個動作時,預期會發生回傳結果的函式。

Q-function 也稱為狀態動作值函式

線上學習

#rl

強化學習中,演算法可讓代理程式透過套用 Bellman 方程式,瞭解馬可夫決策程序中最佳的 Q-function。馬可夫決策程序模擬一個環境

(右)

隨機政策

#rl

強化學習中,會隨機選擇動作政策

強化學習 (RL)

#rl

瞭解最佳「政策的演算法,其目標是在與環境互動時盡可能提高「return」。舉例來說,大部分遊戲的終極獎勵是勝利。 強化學習系統可以評估之前遊戲移動的序列,最終最終會獲勝,最終導致流失。

利用人機意見強化學習 (RLHF)

#generativeAI
#rl

使用人工評分者的意見回饋,加強模型回應的品質。例如,RLHF 機制可以要求使用者使用 Δ 或 👎? 表情符號評分模型回應品質。接著,系統就能根據這些意見回饋調整日後的回應。

重播緩衝區

#rl

在類似DQN的演算法中,代理程式用來儲存狀態轉換的記憶體,以供體驗重播使用。

回攻

#rl

依據強化政策和特定狀態,在傳回「代理程式」後,從狀態一集這段期間,系統會傳回服務專員想獲得的所有獎勵服務專員會根據獎勵取得所需的狀態轉換,提供折扣,以因應預期獎勵的延遲性質。

因此,如果折扣因數為 \(\gamma\),而 \(r_0, \ldots, r_{N}\)代表獎勵直到劇集結束,則回傳計算方式如下:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

獎勵

#rl

強化學習時,在狀態中採取動作的數值結果,如環境所定義。

最終的隱藏狀態

#rl

強化學習時,說明環境目前設定的參數值,可讓代理程式選擇動作

狀態動作值函式

#rl

Q-function 的同義詞。

表格式學習課程

#rl

強化學習中,使用資料表來儲存 Q-functions,讓您透過 state動作的組合儲存 Q-functions

目標聯播網

#rl

深度學習 Q 中,類神經網路是主要類神經網路的穩定近似值,其中主要類神經網路實作了 Q-function政策。 接著,您可以針對目標網路預測的 Q 值訓練主要網路。因此,當主要網路針對自己預測的 Q 值進行訓練時,您就能避免意見回饋循環。避免使用這項意見回饋,訓練穩定性會增加。

終止條件

#rl

在「強化學習中,決定「劇集(例如代理程式達到特定狀態或超過狀態轉換門檻數量) 的條件。例如,在 tic-tac-toe 中 (也稱為 Nought 和 Crossing),只要播放器標示為三個連續的空格,或所有空格都有標示,就會終止該集節目。

軌跡

#rl

強化學習中,由一連串代理程式狀態轉換所構成的布偶,其中每個組合都會對應至狀態、動作獎勵和下一個狀態轉換的狀態。