机器学习术语表:强化学习

本页面包含强化学习术语表术语。如需了解所有术语表,请点击此处

A

操作

#rl

强化学习中,代理环境状态之间过渡的机制。该代理使用政策来选择操作

代理

#rl

强化学习中,实体使用政策环境状态之间过渡中获得尽可能高的预期回报

B

贝尔曼方程

#rl

在强化学习中,最佳 Q 函数可满足以下身份:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a'))\]

强化学习算法通过以下更新规则使用此身份创建 Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

除了强化学习外,贝尔曼方程式还有应用于动态编程的应用。请参阅关于贝尔曼方程的维基百科条目

C

专家评价

#rl

深度 Q-Network 的含义相同。

D

深度 Q 网络 (DQN)

#rl

Q-learning 中,一种可预测 Q 函数的深度神经网络

专家是深度 Q 网络的同义词。

DQN 数额

#rl

深度 Q-Network 的缩写。

E

environment

#rl

在强化学习中,包含代理并允许代理观察该世界的状态的世界。例如,象征性世界可以是象棋等游戏,也可以是迷宫等实体世界。当代理将操作应用于环境时,环境会在状态之间转换。

剧集

#rl

在强化学习中,代理每次重复尝试以学习环境

EPSILON 贪污内容政策

#rl

在强化学习中,如果政策遵循 epsilon 概率的随机政策,否则遵循贪恋政策。例如,如果 epsilon 为 0.9,则政策有 90% 的时间遵循随机政策,而 90% 的时间遵循贪心政策。

在连续的分集中,该算法会降低 epsilon 的值,以便从随机政策改为贪心政策。通过更改政策,代理首先会随机探索环境,然后一味地利用随机探索的结果。

体验重放

#rl

在强化学习中,一种 DQN 技术用于降低训练数据中的时间相关性。代理将状态转换存储在重放缓冲区中,然后从重放缓冲区对转换进行采样,以创建训练数据。

绿

与 Gredy 有关的政策

#rl

在强化学习中,一种政策始终会选择预计具有最高回报的操作。

M

马尔可夫决策过程 (MDP)

#rl

表示决策(或操作)的决策模型的图,该图以 Markov 属性为前提假设的一系列状态。在强化学习中,状态之间的这些转换会返回数值奖励

马尔可夫房产

#rl

某些环境的属性,其中状态转换完全取决于当前状态和代理的操作中隐含的信息。

P

policy

#rl

在强化学习中,代理状态操作的概率映射。

Q 函数

#rl

在强化学习中,函数通过预测处于状态中的操作,然后遵循给定政策的预期返回操作

Q 函数也称为“状态操作价值函数”。

快速学习

#rl

在强化学习中,这种算法允许智能体通过应用贝尔曼方程来学习马尔可夫决策过程的最佳 Q 函数。马尔可夫决策过程为环境建模。

R

随机政策

#rl

在强化学习中,一种策略,用于随机选择操作

强化学习 (RL)

#rl

一系列学习最佳政策的算法,目标是在与环境互动时最大限度地提高回报。例如,大多数游戏的最终奖励就是胜利。 强化学习系统可以评估之前最终获胜的动作序列和最终导致失败的序列,从而成为玩复杂游戏的专家。

重放缓冲区

#rl

在类似 DQN 的算法中,代理用于存储状态转换的内存,以便在体验重放中使用。

return

#rl

在强化学习中,给定特定政策和特定状态后,返回代理在遵循政策状态分集末尾时预期收到的所有奖励的总和。代理根据获得奖励所需的状态转换来折扣奖励,以说明预期奖励的延迟特性。

因此,如果折扣系数为 \(\gamma\),并且 \(r_0, \ldots, r_{N}\)表示直到剧集结束,奖励计算结果如下:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

奖励

#rl

在强化学习中,执行处于状态操作的数值结果(根据环境定义)。

S

state

#rl

在强化学习中,用于描述环境当前配置的参数值,agent 使用它们来选择action

状态-操作值函数

#rl

Q 函数的含义相同。

T

表格式 Q-learning

#rl

在强化学习中,实现 Q-learning,具体方法是使用表格来存储 stateaction 的每个组合的 Q 函数

目标广告网络

#rl

Deep Q-learning 中,它是一个与主神经网络具有稳定近似值的神经网络,其中主神经网络实现了 Q 函数政策。然后,您可以使用目标网络预测的 Q 值来训练主网络。因此,您可以阻止在主网络针对其自身预测的 Q 值进行训练时发生的反馈循环。通过避免此类反馈,训练稳定性提高了。

终止条件

#rl

在强化学习中,用于确定分集何时结束的情况,例如,代理达到特定状态或超过阈值的状态转换次数时。例如,在 tic-tac-toe(也称为“零点”和“组合”)中,当玩家标记三个连续空格或所有空格都标记完毕时,分集就会终止。

轨迹

#rl

在强化学习中,元组序列表示 agent 的一系列 state 转换,其中每个元组对应于给定状态转换的状态、actionreward 和下一个状态。