本页包含强化学习术语表中的术语。如需查看所有术语表术语,请点击此处。
A
action
在强化学习中,代理在环境的状态之间转换的机制。代理使用政策来选择操作。
代理
在强化学习中,使用策略来最大限度地提高从环境的状态之间转换所获得的预期回报的实体。
更广泛地说,代理是指为了实现某个目标而自主规划和执行一系列操作的软件,并且能够适应环境变化。例如,基于 LLM 的代理可能会使用 LLM 生成方案,而不是应用强化学习政策。
B
Bellman 方程
在强化学习中,最优 Q 函数满足以下等式:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
强化学习算法会应用此恒等式,使用以下更新规则创建 Q 学习:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
除了强化学习之外,贝尔曼方程还可应用于动态规划。请参阅 Wikipedia 中有关贝尔曼方程的条目。
C
评论家
与深度 Q 网络的含义相同。
D
深度 Q 网络 (DQN)
评价器是深度 Q 网络的同义词。
DQN
深度 Q 网络的缩写。
E
环境
在强化学习中,包含代理并允许代理观察该世界的状态的世界。例如,所呈现的世界可以是象棋这样的游戏,也可以是迷宫这样的现实世界。当代理对环境应用操作时,环境会在状态之间转换。
分集
epsilon 贪婪策略
在强化学习中,一种策略,在概率为 epsilon 时遵循随机策略,否则遵循贪婪策略。例如,如果 epsilon 为 0.9,则该策略在 90% 的时间遵循随机策略,在 10% 的时间遵循贪婪策略。
在连续的多个情景中,该算法会降低 epsilon 的值,以便从遵循随机策略转变为遵循贪婪策略。通过切换策略,代理会先随机探索环境,然后贪婪地利用随机探索的结果。
体验重放
在强化学习中,一种 DQN 技术,用于减少训练数据中的时间相关性。代理会将状态转换存储在重放缓冲区中,然后从重放缓冲区中抽样转换以创建训练数据。
G
贪婪政策
M
马尔可夫决策过程 (MDP)
表示决策模型的图,其中假定马尔可夫性质成立,系统会根据决策(或操作)来浏览一系列状态。在强化学习中,这些状态之间的转换会返回数值奖励。
马尔可夫属性
某些环境的属性,其中状态转换完全由当前状态和代理的操作中隐含的信息决定。
P
政策
Q
Q 函数
在强化学习中,用于预测在状态中执行操作,然后遵循给定策略后预期的回报的函数。
Q 函数也称为状态-动作价值函数。
Q 学习
在强化学习中,该算法允许代理通过应用贝尔曼方程来学习马尔可夫决策过程的最佳 Q 函数。马尔可夫决策过程可对环境进行建模。
R
随机政策
强化学习 (RL)
一系列算法,用于学习最优的政策,其目标是在与环境互动时最大限度地提高回报。例如,大多数游戏的最终奖励是胜利。通过对最终带来胜利前的游戏走法序列和最终导致失败的序列进行评估,强化学习系统会变得擅长玩复杂的游戏。
基于人类反馈的强化学习 (RLHF)
使用人工评分员的反馈来提高模型回答的质量。 例如,RLHF 机制可以要求用户使用 👍? 或 👎? 表情符号对模型回答的质量进行评分。然后,系统可以根据这些反馈调整日后的回答。
重放缓冲区
在类似 DQN 的算法中,代理用于存储状态转换的内存,以便在经验重放中使用。
回车键
在强化学习中,给定某种策略和某种状态,回报是代理从状态遵循政策到情节结束时预计会收到的所有奖励的总和。代理会根据获得奖励所需的状态转换来折扣奖励,以考虑预期奖励的延迟性质。
因此,如果折扣系数为 \(\gamma\),且 \(r_0, \ldots, r_{N}\)表示剧集结束前的奖励,则收益计算如下:
奖励
S
州
在强化学习中,描述环境当前配置的参数值,代理使用这些值来选择操作。
状态-动作价值函数
与 Q 函数同义。
T
表格化 Q 学习
在强化学习中,使用表格存储状态和操作的每个组合的 Q 函数,从而实现 Q 学习。
目标广告网络
在深度 Q 学习中,此神经网络是对主神经网络的稳定近似,其中主神经网络实现了 Q 函数或策略。然后,您可以根据目标网络预测的 Q 值训练主网络。因此,您可以防止在主网络根据自身预测的 Q 值进行训练时出现反馈环。通过避免这种反馈,可以提高训练稳定性。
终止条件
在强化学习中,用于确定情节何时结束的条件,例如代理达到特定状态或超出状态转换阈值数量时。例如,在井字游戏(也称为“打叉叉”)中,当玩家标记三个连续的空格或所有空格时,游戏会结束。