本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表：強化學習

本頁麵包含強化學習詞彙表字詞。如需所有詞彙表字詞，請按這裡。

A

動作

#rl

在「強化學習」中，代理程式在環境的「狀態」之間轉換的機制。代理程式會使用政策選擇動作。

服務專員

#rl

在強化學習中，使用政策的實體將環境的狀態之間轉換所能獲得的預期報酬

通常來說，代理程式是指能自動規劃並執行一系列動作以實現目標的軟體，同時能夠因應環境的變化進行調整。例如，LLM 為基礎的代理程式可能會使用 LLM 產生方案，而非套用增強學習政策。

B

貝曼方程式

#rl

在增強學習中，最佳 Q-function 代表滿足下列身分：

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化學習演算法會使用此身分，透過以下更新規則建立 Q-learning：

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了強化學習外，貝爾曼方程式也具備動態程式設計應用。請參閱貝曼方程式的 Wikipedia 項目。

C

批評

#rl

Deep Q-Network 的同義詞。

D

深 Q-Network (DQN)

#rl

在 Q-learning 中，這是可預測 Q 函式的深層類神經網路。

「Critic」是 Deep Q-Network 的同義詞。

DQN

#rl

Deep Q-Network 的縮寫。

E

環境

#rl

在增強學習中，這個世界含有「代理程式」，可讓代理程式觀察這個世界的狀態。舉例來說，代表的世界可以是西洋棋之類的遊戲，也可以是迷宮之類的實體世界。當代理程式對環境套用「動作」，環境就會轉換狀態。

單集節目

#rl

在增強學習中，代理程式會不斷嘗試學習某個環境。

Epsilon 貪婪政策

#rl

在強化學習中，一種政策遵循 隨機政策，採用 Epsilon 機率，也可能是貪婪政策。舉例來說，如果 epsilon 是 0.9，那麼政策 90% 的時間會遵循隨機政策，所有時間都遵循貪婪政策。

相對地，演算法會減少 epsilon 的值，從而從隨機政策轉變為遵循貪婪政策。透過變更政策，代理程式會先隨機探索環境，然後嚴謹地利用隨機探索的結果。

體驗重播

#rl

在增強學習中，一種 DQN 技術可用於減少訓練資料中的時間相關性。代理程式會將狀態轉換作業儲存在「重播緩衝區」中，然後取樣從重播緩衝區轉換內容，藉此建立訓練資料。

G

貪婪政策

#rl

在增強學習中，應一律選擇預期「報酬」最高的動作的政策。

M

馬可夫決策流程 (MDP)

#rl

這張圖表代表決策模型，其中決策 (或「動作」) 曾假設有馬可夫屬性保留的一系列狀態。在強化學習中，這些狀態之間的轉換會傳回數值獎勵。

馬可夫屬性

#rl

某些環境的屬性，狀態轉換完全取決於目前狀態中隱含的資訊以及代理程式的動作。

P

policy

#rl

在增強學習中，「代理程式」的機率對應從「狀態」到「動作」。

Q

Q 函式

#rl

在「強化學習」中，這個函式會預測對狀態執行「動作」，再依特定政策提出的預期值。

Q 函式又稱為「狀態動作值函式」。

問與答

#rl

在「強化學習」中，這個演算法可讓代理程式透過套用Bellman 方程式，學習馬可夫決策程序的最佳 Q 函數。馬可夫決策程序會模擬「環境」。

R

隨機政策

#rl

在強化學習中，即隨機選擇「動作」的政策。

強化學習 (RL)

#rl

這套演算法會學習最佳政策，其目標是在與環境互動時盡可能提高報酬。舉例來說，大多數遊戲的最終獎勵都能贏得勝利。強化學習系統可以評估先前遊戲過程的一系列順序，最終結果最終導致輸贏，進而成為處理複雜遊戲的專家。

人類回饋增強學習 (RLHF)

#生成式 AI

#rl

使用評估人員的意見回饋，提高模型回覆的品質。舉例來說，RLHF 機制可要求使用者透過 👍? 或 👎? 表情符號，為模型的回應品質評分。之後系統就能根據這些回饋調整未來的回應。

重播緩衝區

#rl

在類似 DQN 的演算法中，代理程式會使用記憶體儲存狀態轉換，以便用於體驗重播。

return

#rl

在強化學習中，針對特定政策和特定狀態，系統會傳回代理程式預期從狀態開始至劇集結束的政策預期會收到的所有獎勵總和。服務專員會根據獲得獎勵所需的狀態轉換來提供獎勵，藉此顧及預期獎勵的延遲性質。

因此，如果折扣係數為 $\gamma$，而 $r_0, \ldots, r_{N}$表示獎勵直到劇集結束為止，則退貨計算方式如下：

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

獎勵

#rl

在強化學習中，根據環境定義，在狀態中採取動作後的數值結果。

六

state

#rl

在增強學習中，用於描述環境目前設定的參數值，代理程式會使用這個值選擇一項動作。

狀態動作值函式

#rl

Q-function 的同義詞。

T

表格式問與答

#rl

在增強學習中，實作Q-learning：使用資料表儲存所有狀態和動作組合的 Q-functions。

目標網路

#rl

在深度學習中，類神經網路是主要類神經網路的穩定估算結果，其中主要類神經網路會實作 Q-function 或政策。接著，您就可以使用目標網路預測的 Q/值訓練主要網路。因此，您可以防止主要網路自行預測 Q/值時發生的意見回饋循環。藉由避免使用這類意見回饋，訓練穩定性會隨之提升。

終止條件

#rl

在強化學習中，決定劇集結束時間的條件，例如代理程式達到特定狀態，或超過狀態轉換門檻值。舉例來說，在井字遊戲 (又稱為「小甜甜圈」和「十字形」) 中，當玩家標記三個連續空格或所有空格都標記時，劇集就會終止。

軌跡

#rl

在強化學習中，一組元組代表代理程式的一系列狀態轉換，每個元組分別對應至狀態、動作、獎勵及特定狀態轉換的下一個狀態。