强化学习算法（二）DDPG

姓名：张轩

学号：20011214440

【嵌牛导读】在强化学习算法（一）这篇文章中我给大家介绍了A3C这一算法，讨论了使用多线程的方法来解决Actor-Critic难收敛的问题。这篇文章中介绍一种不使用多线程，而是使用和DDQN类似的方法：即经验回放和双网络的方法来改进Actor-Critic难收敛的问题，这个算法就是是深度确定性策略梯度(Deep Deterministic Policy Gradient，以下简称DDPG)。

【嵌牛鼻子】强化学习，DDPG

转载 https://blog.csdn.net/qq_30615903/article/details/80776715

【嵌牛正文】

1.算法思想

Deep：首先Deep我们都知道，就是更深层次的网络结构，我们之前在DQN中使用两个网络与经验池的结构，在DDPG中就应用了这种思想。

PolicyGradient：顾名思义就是策略梯度算法，能够在连续的动作空间根据所学习到的策略（动作分布）随机筛选动作

Deterministic : 它的作用就是用来帮助Policy Gradient不让他随机选择，只输出一个动作值

·随机性策略， $∑ π ( a ∣ s ) = 1$ 策略输出的是动作的概率，使用正态分布对动作进行采样选择，即每个动作都有概率被选到；优点，将探索和改进集成到一个策略中；缺点，需要大量训练数据。

·确定性策略， $π ( s ) S → A$ 策略输出即是动作；优点，需要采样的数据少，算法效率高；缺点，无法探索环境。然而因为我们引用了DQN的结构利用offPolicy采样，这样就解决了无法探索环境的问题

从DDPG网络整体上来说：他应用了 Actor-Critic 形式的, 所以也具备策略 Policy 的神经网络和基于价值 Value 的神经网络，因为引入了DQN的思想，每种神经网络我们都需要再细分为两个, Policy Gradient 这边，我们有估计网络和现实网络，估计网络用来输出实时的动作, 供 actor 在现实中实行，而现实网络则是用来更新价值网络系统的。再看另一侧价值网络, 我们也有现实网络和估计网络, 他们都在输出这个状态的价值, 而输入端却有不同, 状态现实网络这边会拿着从动作现实网络来的动作加上状态的观测值加以分析，而状态估计网络则是拿着当时 Actor 施加的动作当做输入。

DDPG 在连续动作空间的任务中效果优于DQN而且收敛速度更快，但是不适用于随机环境问题。

2、公式推导

再来啰唆一下前置公式

$s_t$ ：在t时刻，agent所能表示的环境状态，比如观察到的环境图像，agent在环境中的位置、速度、机器人关节角度等；

$a_t$ ：在t时刻，agent选择的行为（action）

$r(s_t,a_t)$ ：函数: 环境在状态st 执行行为at后，返回的单步奖励值；

$R_t$ ：是从当前状态直到将来某个状态中间所有行为所获得奖励值的之和当然下一个状态的奖励值要有一个衰变系数 γ \gammaγ 一般情况下可取0到1的小数

$R_t=∑_{i=t}γ^{i−t}r(s_i,a_i)$

Policy Gradient：

通过概率的分布函数确定最优策略，在每一步根据该概率分布获取当前状态最佳的动作，产生动作采取的是随机性策略

$a_t ∼π_θ(s_t|θ^π)$

目标函数： $J(\pi_\theta)=∫_Sρ^\pi(s)∫_A\pi_\theta(s,a)r(s,a)dads=E_{s∼ρ^\pi,a∼\pi_\theta}[r(s,a)]$

梯度： $∇_θJ(π_θ)=∫_Sρ^\pi(s)∫_A∇_θ\pi_\theta(s,a)Q^\pi(s,a)dads=E_{s∼ρ^\pi,a∼\pi_\theta}[∇_θlog\pi_\theta(a|s)Q^\pi(s,a)]$

Deterministic Policy Gradient：

因为Policy Gradient是采取随机性策略，所以要想获取当前动作action就需要对最优策略的概率分布进行采样，而且在迭代过程中每一步都要对整个动作空间进行积分，所以计算量很大

在PG的基础上采取了确定性策略，根据行为直接通过函数μ确定了一个动作，可以吧μ理解成一个最优行为策略

$a_t=μ(s_t|θ^μ)$

performance objective为

$J(μ_\theta)=∫_Sρ^μ(s)r(s,μ_\theta(s))ds$

$J(μ_\theta)=E_{s∼ρ^μ}[r(s,μ_\theta(s))]$

deterministic policy梯度

$▽_\theta J(μ_\theta)=∫_Sρ^μ(s)▽\theta μ_\theta(s)Q^μ(s,a)|_{a=μ_\theta}ds=E_{s∼ρ^β}[▽\theta μ_\theta(s)Q^μ(s,a)|_{a=μ_\theta}]$

DDPG就是用了确定性策略在DPG基础上结合DQN的特点建议改进出来的算法

Deep Deterministic Policy Gradient

所以基于上述两种算法

DDPG采用确定性策略μ来选取动作 a t = μ ( s t ∣ θ μ ) a_t=μ(s_t|θ^μ)at=μ(st∣θμ) 其中θ μ θ^μθμ是产生确定性动作的策略网络的参数。根据之前提到过的AC算与PG算法我们可以想到，使用策略网络μ来充当actor，使用价值网络来拟合(s,a)函数，来充当critic的角色，所以将DDPG的目标函数就可以定义为

$J(θ^μ)=E_{θ^μ}[r_1+γr_2+γ^2r_3+⋯]$

此时Q函数表示为在采用确定性策略μ下选择动作的奖励期望值，在DDPG我们就采用DQN的结构使用Q网络来拟合Q函数

$Q^μ(s_t,a_t)=E [r(s_t,a_t)+γQ^μ(s_{t+1},μ(s_{t+1}))]$

Q网络中的参数定义为 $\theta^Q$ ， $Q^μ(s,μ(s))$ 表示使用μ策略在s状态选选取动作所获取的回报期望值，又因为是在连续空间内所以期望可用积分来求，则可以使用下式来表示策略μ的好坏

$J_β(μ)=∫_Sρ^β(s)Q^μ(s,μ(s))ds=E_{s∼ρ^β}[Q^μ(s,μ(s)]$

behavior policy β: 在常见的RL训练过程中存在贪婪策略来平衡exploration和exploit与之类似，在DDPG中使用Uhlenbeck-Ornstein随机过程（下面简称UO过程），作为引入的随机噪声：UO过程在时序上具备很好的相关性，可以使agent很好的探索具备动量属性的环境exploration的目的是探索潜在的更优策略，所以训练过程中，我们为action的决策机制引入随机噪声：

过程如下图所示：

Silver大神证明了目标函数采用μ策略的梯度与Q函数采用μ策略的期望梯度是等价的：

因为是确定性策略a = μ ( s ∣ θ μ ) a=μ(s|θ^μ)a=μ(s∣θμ)所以得到Actor网络的梯度为

在另一方面Critic网络上的价值梯度为

损失函数采取均方误差损失MSE，另外在计算策略梯度期望的时候仍然选择蒙特卡罗法来取无偏估计（随机采样加和平均法）

我们有了上述两个梯度公式就可以使用梯度下降进行网络的更新

网络结构图如下因为引用了DQN的结构，所以就多了一个target网络

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271