本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表：強化學習

本頁面包含強化學習的字彙表。如要查看所有詞彙表術語，請按這裡。

A

動作

#rl

在強化學習中，代理程式在環境的狀態之間轉換的機制。助理會使用政策選擇動作。

服務專員

#rl

在強化學習中，使用政策的實體，可在環境的狀態之間轉換時，盡量提高預期的報酬。

更廣義來說，代理程式是一種軟體，可自行規劃及執行一系列動作來達成目標，並能因應環境變更。舉例來說，以 LLM 為基礎的代理程式可能會使用 LLM 產生計畫，而非套用強化學習政策。

B

Bellman 方程式

#rl

在強化學習中，最佳 Q 函式 會滿足下列等式：

$Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')$

強化學習演算法會套用這個身分識別碼，並使用下列更新規則建立Q-learning：

$Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right]$

除了強化學習之外，Bellman 方程式也適用於動態規劃。請參閱維基百科的 Bellman 方程式條目。

C

評論家

#rl

與 Deep Q-Network 同義。

D

深度 Q 網路 (DQN)

#rl

在 Q 鍵學習 中，深度 神經網路可預測 Q 函式。

Critic 是 Deep Q-Network 的同義詞。

DQN

#rl

深度 Q 網路的縮寫。

E

環境

#rl

在強化學習中，世界包含代理程式，並允許代理程式觀察該世界狀態。舉例來說，所呈現的世界可以是象棋等遊戲，或是迷宮等實體世界。當代理程式將動作套用至環境時，環境就會在狀態之間轉換。

劇集

#rl

在強化學習中，代理程式重複嘗試學習環境的每個嘗試。

ϵ 貪婪政策

#rl

在強化學習中，政策會依據以小數值機率為準的隨機政策，或依據貪婪政策。舉例來說，如果 epsilon 為 0.9，則政策會在 90% 的時間內遵循隨機政策，在 10% 的時間內遵循貪婪政策。

在連續的劇集中，演算法會降低 epsilon 的值，從遵循隨機政策轉為遵循貪婪政策。透過轉移政策，代理程式會先隨機探索環境，然後貪婪地利用隨機探索的結果。

體驗重播

#rl

在強化學習中，DQN 技術可用於減少訓練資料中的時間相關性。代理程式會將狀態轉換儲存在重播緩衝區中，然後從重播緩衝區取樣轉換，以建立訓練資料。

G

貪婪政策

#rl

在強化學習中，政策一律會選擇預期報酬率最高的動作。

M

馬可夫決策程序 (MDP)

#rl

這張圖表代表決策模型，在該模型中，系統會在假設馬可夫屬性成立的情況下，透過決策 (或動作) 導覽一連串狀態。在強化學習中，狀態之間的這些轉換會傳回數值獎勵。

馬可夫定律

#rl

特定環境的屬性，其中狀態轉換完全由目前狀態中隱含的資訊和代理程式的動作決定。

P

政策

#rl

在強化學習中，代理程式會從狀態到動作進行機率對應。

Q

Q 函式

#rl

在強化學習中，這個函式會預測在狀態中採取動作，然後遵循指定的政策，並預測預期的回報。

Q 函式也稱為狀態-動作值函式。

Q 學習

#rl

在強化學習中，這個演算法可讓代理程式透過套用貝爾曼方程式，學習馬可夫決策程序的最佳Q 函式。馬可夫決策程序會模擬環境。

R

隨機政策

#rl

在強化學習中，指的是隨機選擇動作的政策。

強化學習 (RL)

#rl

一系列演算法，可學習最佳政策，其目標是在與環境互動時，盡量提高回報。舉例來說，大多數遊戲的最終獎勵都是勝利。強化學習系統可評估先前遊戲的動作序列，找出最終導致勝利和失敗的序列，進而成為複雜遊戲的專家。

人類回饋增強學習 (RLHF)

#generativeAI

#rl

使用人工評分員的意見回饋，改善模型回覆的品質。舉例來說，RLHF 機制可以要求使用者使用 👍? 或 👎? 表情符號評分模型回應的品質。系統就能根據這些意見回饋調整日後的回應內容。

重播緩衝區

#rl

在 DQN 類似演算法中，代理程式會使用記憶體儲存狀態轉換，以便在經驗重播中使用。

回攻

#rl

在強化學習中，如果有特定政策和特定狀態，回報就是代理程式從狀態��到情境結束時，按照政策所預期收到的所有獎勵總和。代理程式會根據取得獎勵所需的狀態轉換，對獎勵進行折扣，以反映預期獎勵的延遲性質。

因此，如果折扣係數為 $\gamma$ ，且 $r_0, \ldots, r_{N}$ 表示獎勵直到劇集結束，則回報計算方式如下：

$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$

獎勵

#rl

在增強學習中，在狀態中執行動作的數值結果，由環境定義。

S

州

#rl

在強化學習中，參數值會描述環境的目前設定，代理程式會使用這些設定來選擇動作。

狀態-動作值函式

#rl

與 Q 函式 同義。

T

表格式 Q 學習

#rl

在強化學習中，實作Q 學習，使用表格為每個狀態和動作組合儲存Q 函式。

目標聯播網

#rl

在 Deep Q-learning 中，類神經網路是主類神經網路的穩定近似值，主類神經網路會實作 Q 函式或政策。接著，您可以根據目標網路預測的 Q 值訓練主要網路。因此，您可以避免主網路在訓練自身預測的 Q 值時發生的回饋迴圈。避免這類回饋，可提高訓練穩定性。

終止條件

#rl

在強化學習中，決定情節結束的條件，例如當代理程式達到特定狀態或超過狀態轉換的閾值數量時。舉例來說，在連連看 (又稱為「井字棋」) 中，如果玩家連續標記三個格子，或所有格子都已標記，則該回合就會結束。

軌跡

#rl

在強化學習中，一系列元組代表一系列狀態轉換的代理程式，其中每個元組對應至狀態、動作、獎勵和特定狀態轉換的下一個狀態。