機器學習詞彙表:強化學習

本頁面包含強化學習的字彙表。如要查看所有詞彙表術語,請按這裡

A

動作

#rl

強化學習中,代理程式環境狀態之間轉換的機制。助理會使用政策選擇動作。

服務專員

#rl

強化學習中,使用政策的實體,可在環境狀態之間轉換時,盡量提高預期的報酬

更廣義來說,代理程式是一種軟體,可自行規劃及執行一系列動作來達成目標,並能因應環境變更。舉例來說,以 LLM 為基礎的代理程式可能會使用 LLM 產生計畫,而非套用強化學習政策。

B

Bellman 方程式

#rl

在強化學習中,最佳 Q 函式 會滿足下列等式:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化學習演算法會套用此識別碼,透過下列更新規則建立Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了強化學習之外,Bellman 方程式也適用於動態規劃。請參閱 維基百科的 Bellman 方程式條目

C

評論家

#rl

Deep Q-Network 同義。

D

深度 Q 網路 (DQN)

#rl

Q 鍵學習 中,深度 神經網路可預測 Q 函式

Critic 是 Deep Q-Network 的同義詞。

DQN

#rl

深度 Q 網路的縮寫。

E

環境

#rl

在強化學習中,世界包含代理程式,並允許代理程式觀察該世界狀態。舉例來說,所呈現的世界可以是象棋等遊戲,或是迷宮等實體世界。當代理程式將動作套用至環境時,環境就會在狀態之間轉換。

劇集

#rl

在強化學習中,代理程式會重複嘗試學習環境

ϵ 貪婪政策

#rl

在強化學習中,政策會依據以小數值機率為準的隨機政策,或依據貪婪政策。舉例來說,如果 epsilon 為 0.9,則政策會在 90% 的時間內遵循隨機政策,在 10% 的時間內遵循貪婪政策。

在連續的劇集中,演算法會降低 epsilon 的值,從遵循隨機政策轉為遵循貪婪政策。透過轉移政策,代理程式會先隨機探索環境,然後貪婪地利用隨機探索的結果。

體驗重播

#rl

在強化學習中,DQN 技術可用於減少訓練資料中的時間相關性。代理程式會將狀態轉換儲存在重播緩衝區中,然後從重播緩衝區取樣轉換,以建立訓練資料。

G

貪婪政策

#rl

在強化學習中,政策一律會選擇預期報酬率最高的動作。

M

馬可夫決策程序 (MDP)

#rl

這張圖表代表決策模型,在該模型中,系統會在假設馬可夫屬性成立的情況下,透過決策 (或動作) 導覽一連串狀態。在強化學習中,狀態之間的這些轉換會傳回數值獎勵

馬可夫定律

#rl

特定 環境的屬性,其中狀態轉換完全由目前狀態中隱含的資訊和代理程式的動作決定。

P

政策

#rl

在強化學習中,代理程式會從狀態動作進行機率對應。

Q

Q 函式

#rl

強化學習中,這個函式會預測在狀態中採取動作,然後遵循指定的政策,並預測預期的回報

Q 函式也稱為狀態-動作值函式

Q 學習

#rl

強化學習中,這個演算法可讓代理程式透過套用貝爾曼方程式,學習馬可夫決策程序的最佳Q 函式。馬可夫決策程序會模擬環境

R

隨機政策

#rl

強化學習中,指的是隨機選擇動作政策

強化學習 (RL)

#rl

一系列演算法,可學習最佳政策,其目標是在與環境互動時,盡量提高回報。舉例來說,大多數遊戲的最終獎勵都是勝利。強化學習系統可評估先前遊戲的動作序列,找出最終導致勝利和失敗的序列,進而成為複雜遊戲的專家。

人類回饋增強學習 (RLHF)

#generativeAI
#rl

使用人工評分員的意見回饋,改善模型回覆的品質。舉例來說,RLHF 機制可以要求使用者使用 👍? 或 👎? 表情符號評分模型回應的品質。系統就能根據這些意見回饋調整日後的回應。

重播緩衝區

#rl

DQN 類似演算法中,代理程式會使用記憶體儲存狀態轉換,以便在經驗重播中使用。

回攻

#rl

在強化學習中,如果有特定政策和特定狀態,回報就是代理程式狀態��到情境結束時,按照政策所預期收到的所有獎勵總和。代理程式會根據取得獎勵所需的狀態轉換,對獎勵進行折扣,以反映預期獎勵的延遲性質。

因此,如果折扣係數為 \(\gamma\),且 \(r_0, \ldots, r_{N}\)表示獎勵直到劇集結束,則回報計算方式如下:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

獎勵

#rl

在強化學習中,在狀態中執行動作的數值結果,由環境定義。

S

#rl

在強化學習中,參數值會描述環境的目前設定,代理程式會使用這些設定來選擇動作

狀態-動作值函式

#rl

Q 函式 同義。

T

表格式 Q 學習

#rl

強化學習中,針對每個 狀態動作 組合,使用資料表儲存Q 函式,藉此實作Q-learning

目標聯播網

#rl

Deep Q-learning 中,類神經網路是主類神經網路的穩定近似值,主類神經網路會實作 Q 函式政策。接著,您可以根據目標網路預測的 Q 值訓練主要網路。因此,您可以避免主網路在訓練自身預測的 Q 值時發生的回饋迴圈。避免這類回饋,可提高訓練穩定性。

終止條件

#rl

強化學習中,決定情節結束的條件,例如當代理程式達到特定狀態或超過狀態轉換的閾值數量時。舉例來說,在連連看 (又稱為「井字棋」) 中,如果玩家連續標記三個格子,或所有格子都已標記,則該回合就會結束。

軌跡

#rl

強化學習中,一系列元組代表一系列狀態轉換的代理程式,其中每個元組對應到狀態、動作獎勵和特定狀態轉換的下一個狀態。