深度强化学习的基本概念

环境 Environment，个体 Agent，状态 State，奖励 Reward

在强化学习中最重要的两个概念是环境 Environment 和个体 Agent，个体的实质正是需要确立的算法本身。在每一个时间步，环境呈现给个体一个外界状态 State, S，个体通过从预先设定的动作空间中选择一个动作 Action，A 来与环境进行交互，环境再反馈给个体其动作后环境所处的新的状态 S' 和反馈信息 Reward，R，个体的目标 Goal 就是如何选择自己在整个交互过程中的全部动作来最大化期望累积奖励 expected cumulative reward，而之所以是一个期望值，是由于未来的奖励值是一个取决于个体所处状态和动作的随机变量。

Reward Hypothesis

All goals can be framed as the maximization of expected cumulative reward. - Udacity Notes

个体通过与环境的不断交互来了解环境反馈的奖励情况，进而学会如何获得最大化的累积奖励。需要注意的是，在实际交互过程中并不是每一个动作后（或者每一个时间步 step) 都会获得奖励信息，更常见的是当个体完成一个阶段性 episodic 的任务时才给予这个奖励信息。个体需要在学习过程中逐渐学会如何平衡长期及短期目标，并作出相应的行动来实现最大化奖励。由于强化学习中奖励是个体学习的最重要的反馈信息，因此其定义的方式十分重要，并且是一个十分复杂的过程。

在 Udacity 的课堂中举了一个 Deep Mind 训练机器人行走的奖励定义：

r = min(v_x, v_max) - 0.005(v_y² + v_z²) - 0.05y² - 0.02||u||² + 0.02

尽管这个公式如此的简单直观，但却可以有效的通过限制机器人行走的速度、左右的偏移和关节的转矩来使得机器人逐渐学会如何平稳的行走。

累积奖励 Return & 折现累积奖励 Discounted return

由于个体的行动是一个涉及多个时间步的过程，在这里定义个体在某个时间 t 后可以获得的累积奖励为：

G(t) = R_t+1 + R_t+2 + R_t+3 + R_t+4 ...

但由于对于任何个体来说，远期奖励不及短期奖励更有吸引力，因此一个更加合理的奖励目标函数则应该定义为：

G(t) = R_t+1 + γR_t+2 + γ²R_t+3 + γ³R_t+4 ...

其中 γ 为折现系数（与财务中的贴现率原理一致），由于 γ 越小则个体越倾向于重视近期奖励而忽视远期奖励，因此一般将其设置为 <1 但更加接近于 1 的数值，例如 0.9。并且考虑到函数的收敛性，这一参数的引入对于没有既定终点的持续性任务 Continuing task 的学习非常重要。

Markov Decision Process, MDP

在进一步解释马尔克夫决策过程 Markov Decision Process 之前，先进一步定义一些注释：

S 代表除终点状态外的所有其他状态构成的状态空间，在持续性任务中，这个状态空间就代表环境所能呈现出的所有状态
S⁺ 代表包含终点状态的环境状态空间
A 代表个体的动作空间
A(s) 代表个体处在某个状态 s 时可以执行的动作，可以知道 A(s) 是 A 的一个子集

在前面我们已经知道，在任意一个时间步 t，个体-环境的历史交互过程都可以被表示成一系列的状态、动作和奖励：(S₀, A₀, R₁,S₁, A₁, ..., R_t-1,S_t-1, A_t-1, R_t,S_t, A_t)，如果环境在 t+1 时刻的响应（状态和奖励）只取决于 t 时刻的个体的动作和环境的状态 (S_t, A_t)，而完全忽略前面各个时间步的环境状态、个体动作和反馈奖励情况时，这种情况下 t+1 时刻环境的状态 s' 和反馈的奖励 r 就可以被定义为一个依赖于当前环境状态 s 和个体动作 a 的条件概率的形式：

p(s', r | s, a) ≐ P(S_t+1 = s', R_t+1 = r |S_t = s, A_t = a), ∀ s, s', a, r

When the agent is in state s and takes action a, the probability of each possible next state s' and reward r is given by p(s', r| s, a) - Udacity Notes

这一系列只取决于当前时间步 t 时刻环境状态 s 和个体动作 a 的环境动态变化过程称为环境的 one-step dynamics。

更加概括地，这一类只取决于当前状态和动作的环境模型可以称为马尔克夫决策过程，其由一个状态空间 S、动作空间 A、奖励空间 R 、折现系数 γ 以及环境的 one-step 动态过程确定。

这个 MDP 的定义过程就是强化学习模型的建立过程，是强化学习模型建立的第一步。在具体建模时，个体会知晓自己的动作空间 A 和环境的状态空间 S 以及折现率 γ，而奖励信息和 one-step dynamics 则定义了环境的工作机制，这些信息对于个体来说是未知且需要通过学习来获知的。对于一个有限的 finite MDP 来说，状态空间 S 和动作空间 A 都必须是有限集。

个体动作的策略 Policy

从前面可以看出，为了让个体可以更好的应对环境，需要它具有根据所处环境状态 S 选择动作 A 的能力，这个对应的从环境状态空间 S 到个体动作空间 A 的映射关系就称为策略，策略在强化学习的语境中用 π 来表示：

当个体采取确定性策略 Deterministic Policy 时，针对每一个特定的环境状态个体的动作是特定的，因此可以建立一个环境状态空间 S 到个体动作空间 A 的映射，即 π: S → A
当个体采取随机性策略 Stochastic Policy 时，个体会针对同一个状态 s 依据某一概率选择相应的动作 a，此时的策略是一个服某个概率分布的条件概率，表示方法为：π: S x A → [0, 1]，更具体的可以表示为 π(a | s) = P(A_t = a | S_t = s)

个体的训练过程就是通过其与环境的交互寻求最优策略的过程。

State-value Function

为了衡量个体在各个状态 s 下选择不同策略得到的累积奖励差异，我们可以定义一个 State-value function 来衡量个体在某个状态 s 下在后续的时间步依据某一策略 π 采取行动而获得的累积奖励值，用 v_π(s) 来表示。

For each state, the state-value function v_π(s) yields the expected return, if the agent started in the state s , and then followed the policy π for all (later) time steps. - Udacity Notes

v_π(s) = E_π [G_t |S_t = s ]

由于在某一个特定环境状态 s 下个体能够获得的累积奖励值 G_t 取决于其采取的策略，因此可以通过这个方程来比较个体从同一个环境状态 s 开始遵循不同策略得到的累积奖励情况，进而衡量策略的优劣。

Bellman Expectation Equation

需要注意的是，由于个体在任意一个环境状态 s 下遵循某一策略 π 取得的奖励值 v_π(s) 都可以拆分成 t 时刻的即期奖励 R_t+1 和后续所有时间步的累积奖励 v_π(S_t+1) 的和，并且由于在实际工作环境下即期奖励 R_t+1 和下一步的动作 A_t+1 以及未来获得的奖励 v_π(S_t+1) 并不是能够预先准确确定的，因此需要关心的是这个奖励值的期望值，进而就可以将这个 State-value function 表示成 Bellman Expection Equation 的形式。

The value of any state = the expected value of (the immediate reward + the discounted value of the state that follows) - Udacity Notes

v_π(s) = E_π [R_t+1 + γv_π(S_t+1) |S_t = s ]

在一般性的马尔克夫决策模型中，这些预期奖励通常被设定为服从某种概率分布，如在前面提到的奖励 r 和下一步的状态 s' 服从于环境的 one-step dynamics p(s', r |s, a)。

当个体采用确定性策略 deterministic policy 时，即在某一环境状态 s 下确定的采取某一动作 a，此时这一期望值可以展开为：

v_π(s) = E_π [R_t+1 + γv_π(S_t+1) |S_t = s ] = Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γv_π(s'))

In this case, we multiply the sum of the reward and discounted value of the next state (r + γv_π(s')) by its corresponding probability p(s', r |s, a) and sum over all possibilities to yield the expected value. - Udacity Notes

当采用随机 stochastic 策略时，由于个体在状态 s 下选择动作 a 的概率是 π(a | s)，此时这一期望值可以展开为：

v_π(s) = E_π [R_t+1 + γv_π(S_t+1) |S_t = s] = Σ_{s'∈S⁺,r∈R, a∈A(s)}π(a | s)p(s', r | s, a)(r + γv_π(s')) = Σ_a∈A(s)π(a | s) Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γv_π(s'))

In this case, we multiply the sum of the reward and discounted value of the next state (r + γv_π(s')) by its corresponding probability π(a | s)p(s', r |s, a) and sum over all possibilities to yield the expected value. - Udacity Notes

策略的优化

我们定义当且仅当对于 ∀s∈S 有 v_π‘(s) ≥ v_π(s) 时，则称策略 π' ≥ π，在此基础上将最优策略 π_* 定义为对于任意策略有 π_* ≥ π，对应最优策略的状态值函数 State-value function 表示为 v_*，需要注意的是最优策略总是存在的，但不一定是唯一的。

Action-value Function

为了可以定量的描述个体在某一状态 s 下采取行动 a 后得到的奖励值，针对每一个 (s, a) 对也可以定义一个针对此时的预期奖励值 q_π(s, a) 的期望函数：

q_π(s, a) = E_π [G_t |S_t = s, A_t = a] = E_π [R_t+1 + γq_π(S_t+1, A_t+1) |S_t = s, A_t = a] = Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γΣ_a'∈A(s')π(a' | s')q_π(s', a')) = Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γv_π(s'))

For each state s and action a, q_π(s, a) yields the expected return if the agent starts in state s then choose action a and then uses the policy π to choose its action for all (later) time steps. - Udacity Notes

由于每一个值的获取都取决于所在的状态 s 和采取的行动 a，因此每一个 q 值都对应一个 (s, a) 对。由两个值函数的定义可知，在确定策略下对于任意 s 有 v_π(s) = q_π(s, a) 。

对应最优的状态值函数 Action-value function 表示为 q_*，个体获得最优策略的过程是首先通过多次交互获得在不同状态下采取特定动作时的 Action-value，进而评估不同状态下的最优动作值，对应选取不同状态下的最优动作值对应的策略就是最优策略，即 π_*(s) = argmax_a∈A(s)q_*(s, a)。

Bellman Optimality Equations

Bellman 期望方程考察的是对于任意策略的累积奖励的期望情况，但对于最优策略来说，其可以定义一个 Bellman Optimality Equation。

对于 v_* 来说，Bellman 最优方程为：

v_*(s) = max_a∈A(s)E[R_t+1 + γv_*(S+1)|S_t=s] = max_a∈A(s)Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γv_*(s'))

对于 q_* 来说，Bellman 最优方程为：

q_*(s, a) = E_π [R_t+1 + γmax_{a'∈A(S_t+1)}q_*(S_t+1, a') | S_t = s, A_t = a] = Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γmax_a'∈A(s')q_*(s', a'))

最优策略的寻求过程

在实际应用中，最优策略的寻求过程是通过使得个体在不同状态 s 下尝试采用不同的动作 a，最终经过与环境的多次交互过程后寻得每一个状态下采用不同的动作时得到的动作值 q(s, a) 函数，在此基础上在每一个状态下选择动作值函数最大的动作，进而得到的行动策略就是最优策略。

Dynamic Programming

在实际应用中上述的 state-value function 可以被展开成一个方程组，对应每一个方程组有 S 个方程，由于状态空间中可能的状态数量很大，因此会采用迭代的方式逐渐更新对应的 v_π(s) 的值，此时要给予个体环境的 one-step dynamics 信息。

最优策略的获取过程如下：

Policy Evaluation: 为个体初始化任意一个策略 π（如均匀分布），利用 v_π(s) = Σ_a∈A(s)π(a | s) Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γv_π(s')) 来获取对应这个策略下的 State-value function
Action-value estimation: 在此基础上通过 q_π(s, a) = Σ_{s'∈S⁺,r∈R}p(s', r |s, a)(r + γv_π(s')) 来获取当前策略下的 Action-value function
Policy Improvement: 在每一个状态下选取 Action-value function 的最大值来获得改进后的策略
Policy Iteration: 将改进后的策略多次循环代入 Policy Evaluation 和 Policy Improvement 过程来获取最优策略

至此已经完成了从任意选择的策略进化到最优策略的迭代过程，但在实际应用中，考虑算法的相应时间，为了让个体可以更加迅速的获得最优策略，可以着手对上述算法进行优化。

Truncated policy evaluation & Iteration: 对于在 Policy Evaluation 中，我们可以设置算法对状态空间的遍历次数超过一定次数即可，这个次数只要在总体趋势上 state value function 已经可以满足在后续的 Policy iteration 中得出的策略 π' 与最佳策略一致即可

Monte Carlo Methods

与 Dynamic Programming 最大的区别在于在这个环境下不会给予个体环境的 one-step dynamics 信息。

Monte Carlo methods are ways of solving the reinforcement learning problem based on averaging sample returns. - Sutton

参考阅读

最后编辑于：2018.07.27 13:00:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269