David Silver Lecture 4 (1)（Model-Free Prediction）讲解

1. 前言：

这些博客是根据david silver 的深度强化学习内容，结合自己的理解以及学习而写成，转载请注明。前三节的课程是关于已知模型的MDP，在后期会补，但通常来讲，基于已知模型的MDP的计算比较简单，同时在实际中确切的模型也比较难以获知，所以我感觉比较难解决实际问题。
在本节课程，我们主要关注两点：
1）无模型函数的预测；
2）unknown MDP情况下的值函数的预估。

image.png

^[1]

2. 蒙特卡洛强化学习方法（Monte-Carlo Reinforcement Learning, MC RL）：

MC RL 的特点：

MC 方法直接从episodes of experience 中学习。

MC 无需知道MDP 的状态转移矩阵以及收益函数。

MC 从完整的episodes 中学习，没有bootstraping。

MC 的一直最本质的想法就是：多次采样取平均，即：value = mean return。

注意点：MC适用于episodic 的MDP模型，所有的episodes 一定要结束。

^[2]

(1). 通过MC 方法来进行策略评估（Policy Evaluation）

目标：
已知策略policy ${\pi}$ ，去求 $v_{\pi}$ 。
回忆：总的折扣奖赏（total discounted reward）可以表示为:

$G_t = R_{t+1}+\gamma R_{t+1} + \gamma^2 R_{t+1}+\cdots +\gamma^{T-1} R_{T}$

而在策略 ${\pi}$ 的指导下，对于状态 $s$ 我们的值函数的定义可以表示为：
$v_{\pi}(s) = \mathrm{E}_{\pi}[G_t |S_t=s]$ 。

MC策略评估的做法就是利用经验均值(多次采样取平均)来代替期望均值。

(2). 首访MC策略评估和每访MC策略评估

对于首访MC策略评估：大体的想法如下：

image.png

大体的思想是：如果我们要评估状态 $s$ 的值函数 $v_{\pi}(s)$ , 我们需要做的是对于每个episode，从第一次遇到状态 $s$ 开始，记录下来 $G_t$ ,并更新 $S(s)=S(s)+G_t$ ,并将计数器 $N(s)=N(s)+1$ 。经验值 $V(s) = S(s)/ N(s)$ 。根据大数定理，经验值趋近于 $v_{\pi}(s)$ , 即 $V(s)\rightarrow v_{\pi}(s)$ .

对于每访MC策略评估，大体思想如下：

image.png

大体的思想是：如果我们要评估状态 $s$ 的值函数 $v_{\pi}(s)$ ，在每一次episode中，没访问一次状态 $t$ , 那么我们就更新一次计数器 $N(s)=N(s)+1$ 以及 $S(s)=S(s)+G_t$ ，这也意味着在一次episode中， $N(s)$ 和 $S(s)$ 可能被更新多次。实际上，有理论证明首访MC策略评估和每访MC策略评估最终对策略的评估结果（即经验均值V(s)）是相同的，感兴趣的同学可以自己查阅资料。

(3). 均值的递增式

序列 $x_1, x_2, \cdots$ 的均值实际上可以求解如下：

image.png

后面的一项可以理解为根据第 $k$ 次的数据，对之前经验均值所做的一个调整，而调整的权重是 $1/k$ 。

由于MC的思路也可以理解为是多个序列求经验均值，所以也同样可以表达成如上的形式：

image.png

注意对于权重 $1/N(s)$ ，实际是指到此时为止，之前所有episode中遇到的状态 $s$ 的情况都考虑进来了，而实际上对于非静态的系统，很久之前的经验对于我们来讲已经没有意义，我们著需要关注最近发生的即可，所以又有了下式：

image.png

在上式中，在每一次更新 $V(s)$ 时，最近一次得到的总的折扣奖赏 $G_t$ 对于均值的调整总是 $\alpha$ ，我个人理解是将上式换作如下写法可能对于作者的本意更好理解，上式可以写成如下：
$V(S_t) = (1-\alpha)V(S_t) + \alpha G_t$
通过调整 $\alpha$ ，我们可以将注意力更多的集中在最近一次的采样值 $G_t$ 上，而忽略之前的采样值的影响。

3. 时域差分法（Temporal-Difference Learning)

TD法的特点：

TD 方法直接从episodes of experience 中学习。

TD 无需知道MDP 的状态转移矩阵以及收益函数。

TD 可以从不完整的episodes 中学习，利用了bootstraping。

MC 的一直最本质的想法就是：每一步都根据已有的经验动态的调整值函数，对策略进行评估。

自己理解：MC适用于episodic 的MDP模型，所有的episodes 一定要结束。而TD不一定要episodes结束，而是随时对策略的评估进行更新。

最简单的TD(0)的更新公式如下：

image.png

注意在上式中，我们对于状态 $S_t=s$ 的更新，实际上是利用了 $\delta_t = R_{t+1}+\gamma V(S_{t+1}=s')-V(S_t=s)$
其中 $R_{t+1}$ 是真实环境中的值，而 $V(s), V(s')$ 实际上我们一开始都会给一个猜测值（最简单的就是 $V(s) = 0, s \in \mathit{S}，\mathit{S}$ 表示状态空间），之后利用上面的公式不断进行迭代更新。所以David Silver说是

image.png

David Silver 随后利用一个例子说明了MC方法和TD方法思路上的差别。具体参考ppt 14-15, 在此略过。实际上想表达的物理思想就是：MC 实际上每一次更新都是根据一次完成的采样所得到的 $G_t$ , 有一点类似于上帝视角。而TD的想法是，我初始值很傻，就是随便猜，但是每一次得到了一次及时收益 $R_{t+1}$ ,我都可以进行一次更新，使猜的更准一点。我的例子是：比如：我女朋友让我猜这个口红的价钱，我傻乎乎的说0元，女朋友说低了，我说1000元，女朋友说高了，我再说100元，依次进行下去，根据每一个反馈来进行调整。而MC的策略的思想是：我看了女朋友的牌子迪奥，而我之前逛商场的时候看到了多款迪奥口红的价格，那么每一款迪奥口红的价格实际上类似于我的一次抽样（一个episode），那么我根据这么多的抽样就可以大体说出这款口红的价格。只是个例子，不够严谨，辅助理解。

明天我将继续说明 $TD(n)$ ，以及 $TD(\lambda)$ 的相关内容，欢迎关注。

参考ppt_3 ↩
参考ppt_4 ↩

最后编辑于：2018.09.05 21:18:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,458评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,454评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,171评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,062评论 0赞 207
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,440评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,661评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,906评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,609评论 0赞 200
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,379评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,600评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,085评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,409评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,072评论 3赞 237
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,088评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,860评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,704评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,608评论 2赞 270

David Silver Lecture 4 (1)（Model-Free Prediction） 讲解

1. 前言：

2. 蒙特卡洛强化学习方法（Monte-Carlo Reinforcement Learning, MC RL）：

(1). 通过MC 方法来进行策略评估 （Policy Evaluation）

(2). 首访MC策略评估和每访MC策略评估

(3). 均值的递增式

3. 时域差分法（Temporal-Difference Learning)

推荐阅读更多精彩内容

David Silver Lecture 4 (1)（Model-Free Prediction）讲解

(1). 通过MC 方法来进行策略评估（Policy Evaluation）