本页包含强化学习术语表中的术语。如需查看所有术语表术语,请点击此处。
A
action
在强化学习中,代理在环境的状态之间转换的机制。代理使用政策选择操作。
代理
在强化学习中,这类实体使用政策来最大化从环境的状态转换中获得预期回报率。
从更笼统的角度来说,代理是指可自动规划和执行一系列操作以追求目标的软件,并且能够适应环境中的变化。例如,基于 LLM 的代理可能会使用 LLM 来生成计划,而不是应用强化学习政策。
B
贝尔曼方程
在强化学习中,由最优 Q 函数满足以下身份:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
强化学习算法会应用此身份,通过以下更新规则创建 Q-learning:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
除了强化学习,贝尔曼方程还在动态编程中也有应用。请参阅 关于贝尔曼方程的维基百科条目。
C
专家
与深度 Q 网络的同义词相同。
D
深度 Q 网络 (DQN)
Critic 是深度 Q-Network 的同义词。
邓氏编码
深度 Q-Network 的缩写。
E
环境
在强化学习中,是指包含代理的世界,该世界包含代理并允许代理观察该世界的状态。例如,表示的世界可以是国际象棋这样的游戏,也可以是迷宫这样的物理世界。当代理对环境应用操作时,环境会在状态之间转换。
分集
epsilon 贪婪政策
在强化学习中,遵循具有 epsilon 概率的随机政策的政策,否则遵循贪心政策。例如,如果 epsilon 为 0.9,则政策 90% 的几率遵循随机政策,10% 的几率遵循贪心政策。
在连续的剧集中,算法会降低 epsilon 的值,以便将遵循随机政策转变为遵循贪婪政策。通过改变政策,代理会先随机探索环境,然后贪心地利用随机探索的结果。
体验重放
在强化学习中,一种 DQN 技术,用于降低训练数据中的时间相关性。代理会将状态转换存储在重放缓冲区中,然后通过重放缓冲区对转换进行采样,以创建训练数据。
G
贪婪政策
在强化学习中,是指始终选择预期回报最高的操作的政策。
M
马尔可夫决策过程 (MDP)
表示决策模型的图表,在该模型中,决策(即操作)在假设马尔可夫属性持有的情况下浏览一系列状态。在强化学习中,状态之间的这些转换将返回一个数字形式的奖励。
马尔可夫属性
某些环境的属性,其中状态转换完全由当前状态和代理的操作中隐含的信息决定。
P
policy
Q
Q 函数
在强化学习中,该函数用于预测在某个状态下执行某项操作,然后按照指定的政策预测预期返回。
Q 函数也称为状态-操作值函数。
Q 学习
强化学习是一种算法,可让代理通过应用贝尔曼方程来学习马尔可夫决策过程的最优 Q 函数。马尔可夫决策过程可为环境建模。
R
随机政策
强化学习 (RL)
一系列算法,用于学习最佳政策,其目标是在与环境互动时尽可能提高回报。例如,大多数游戏的最终奖励是胜利。强化学习系统通过评估最终导致胜利的一系列游戏动作序列和最终导致失败的序列,可以成为玩复杂游戏的专家。
基于人类反馈的强化学习 (RLHF)
使用人工审核者的反馈提高模型回答的质量。 例如,RLHF 机制可以要求用户使用 👍? 或 👎? 表情符号来评价模型的响应质量。然后,系统可以根据该反馈调整未来的响应。
重放缓冲区
在类似 DQN 的算法中,代理用于存储状态转换以便在体验重放中使用的内存。
return
在强化学习中,给定某种政策和特定状态,返回的值是代理按照政策从状态到剧集结尾时预期能够获得的所有奖励的总和。代理根据获得奖励所需的状态转换来调低奖励,从而解决了预期奖励的延迟性质。
因此,如果折扣系数为 \(\gamma\),并且 \(r_0, \ldots, r_{N}\)表示奖励直到剧集结尾,那么回报计算如下:
奖励
在强化学习中,是指在“状态”下执行某项操作的数值结果,该状态由环境定义。
南
state
在强化学习中,这些是描述环境当前配置的参数值,代理可使用这些值选择操作。
状态-操作值函数
是 Q 函数的同义词。
T
表格 Q 学习
在强化学习中,通过使用表为状态和操作的每个组合存储 Q 函数来实现 Q 学习。
目标广告网络
在深度 Q 学习中,一种神经网络,是主神经网络的稳定近似值,其中主神经网络实现了 Q 函数或政策。然后,您可以使用目标网络预测的 Q 值来训练主网络。因此,您可以防止主网络根据自行预测的 Q 值进行训练时发生反馈环。通过避免这种反馈,训练稳定性提高。
终止条件
在强化学习中,用于确定分集何时结束的条件,例如代理达到特定状态或超过阈值状态转换次数。例如,在 tic-tac-toe(也称为“noughts and Crosses”)中,剧集会在玩家标记三个连续空格或标记所有空格时终止。