本页面包含强化学习术语表术语。如需了解所有术语表术语,请点击此处。
应用
action
在强化学习中,代理在环境的状态之间转换的机制。代理使用政策来选择操作。
代理
在强化学习中,实体使用政策来最大限度提高在环境的状态过渡期间获得的预期回报。
B
贝尔曼方程式
在强化学习中,最佳 Q 函数满足以下身份:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
强化学习算法通过以下更新规则应用此身份来创建 Q-learning:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
除了强化学习之外,贝尔曼公式还适用于动态编程。请参阅 伯尔曼方程式的维基百科条目。
C
评论
与深度 Q 网络的含义相同。
D
深度 Q 网络 (DQN)
在 Q-learning 中,我们预测了 Q-functions 的深度神经网络。
评论是深度 Q 网络的同义词。
DQN
深度网络的缩写。
E
environment
在强化学习中,包含代理并允许代理观察该世界状态的世界。例如,所表示的世界可以是游戏(例如国际象棋),也可以是现实世界(例如迷宫)。当代理将操作应用于环境时,环境会在状态之间转换。
剧集
epsilon Greed 政策
在强化学习中,政策遵循具有随机概率的随机政策,否则遵循贪污政策。例如,如果 epsilon 为 0.9,则该政策在 90% 的时间内遵循随机政策,在 10% 的时间内遵循贪心政策。
在连续剧集中,该算法会减少 epsilon 的值,以便从遵循随机政策转变为遵循贪婪政策。通过改变政策,代理首先会随机探索环境,然后一味地利用随机探索的结果。
体验重放
在强化学习中,一种 DQN 技术,用于降低训练数据中的时间相关性。代理将状态转换存储在重放缓冲区中,然后从重放缓冲区转换过渡采样以创建训练数据。
G
与贪婪政策有关的政策
M
马尔可夫决策过程 (MDP)
一张表示决策模型的图表,其中做出决策(或操作)以导航一系列状态(假设 马尔可夫属性 包含其中)。在强化学习中,状态之间的这些转换会返回数值的奖励。
马尔可夫房产
某些环境的属性,其中状态转换完全取决于当前状态和代理的操作中隐含的信息。
P
policy
Q
Q 函数
在强化学习中,预测返回在状态中执行操作,然后遵循给定政策的函数。
Q 函数也称为状态操作值函数。
Q 型学习
在强化学习中,该算法允许代理通过应用伯尔曼方程式来学习马尔可夫决策过程的最佳Q 函数。马尔可夫决策过程为环境建模。
(右)
随机政策
强化学习 (RL)
一系列学习最佳政策的算法,目标是在与环境互动时最大限度地提高回报。例如,大多数游戏的最终奖励都是成功。强化学习系统可以通过评估最终赢得胜利的序列和最终导致落败的序列,成为玩复杂游戏的专家。
基于人类反馈的强化学习 (RLHF)
使用人工审核者的反馈来提高模型回复的质量。 例如,RLHF 机制可以要求用户使用 hw 或 👎? 表情符号对模型的响应质量进行评分。然后,系统可以根据该反馈调整其未来响应。
重放缓冲区
在类似于 DQN 的算法中,代理用于存储状态转换的内存,以用于体验重放。
回攻
在强化学习中,给定特定政策和特定状态时,回报是代理在按照政策从状态到剧集结束时预计会获得的所有奖励的总和。代理会根据获得奖励所需的状态转换对奖励进行折扣,以应对预期奖励延迟的情况。
因此,如果折扣因素为 \(\gamma\),并且 \(r_0, \ldots, r_{N}\)表示奖励直到剧集结束,那么退货计算如下所示:
奖励
S
最后一个隐藏状态
在强化学习中,用于描述环境当前配置的参数值,代理会将其用于选择操作。
状态-操作价值函数
与 Q 函数的含义相同。
T
表格式 Q 学习
在强化学习中,通过使用表格来存储对于状态和操作的每个组合的 Q 函数来实现 Q-learning。
目标网络
在深度深度学习中,神经网络是主神经网络的稳定近似值,其中主神经网络实现了 Q 函数或政策。然后,您可以使用目标网络预测的 Q 值来训练主网络。因此,您可以防止在主网络使用其自身预测的 Q 值进行训练时发生反馈循环。通过避免这些反馈,训练稳定性会提高。
终止条件
在强化学习中,确定分集何时结束的条件,例如当代理达到特定状态或超出阈值的状态转换次数时。例如,在 tic-tac-toe(也称为平缓和十字组合)中,当玩家标记三个连续的空格或标记所有空格时,分集会终止。