深度强化学习-Actor-Critic算法原理和实现

在之前的几篇文章中，我们介绍了基于价值Value的强化学习算法Deep Q Network。有关DQN算法以及各种改进算法的原理和实现，可以参考之前的文章：

实战深度强化学习DQN-理论和实践：https://www.jianshu.com/p/10930c371cac
DQN三大改进(一)-Double DQN：https://www.jianshu.com/p/fae51b5fe000
DQN三大改进(二)-Prioritised replay：https://www.jianshu.com/p/db14fdc67d2c
DQN三大改进(三)-Dueling Network：https://www.jianshu.com/p/b421c85796a2

基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然后根据价值贪心的选择动作。如果我们省略中间的步骤，即直接根据当前的状态来选择动作。

在强化学习中，还有另一种很重要的算法，即策略梯度(Policy Gradient)。之前我们已经介绍过策略梯度的基本思想和实现了，大家可以有选择的进行预习和复习：
深度强化学习-Policy Gradient基本实现:https://www.jianshu.com/p/2ccbab48414b

本文介绍的Actor-Critic算法呢，就是结合了上面两种算法的基本思想而产生的，什么是Actor？什么是Critic？二者是如何结合的，通过这篇文章，我们来一探究竟。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程，大家可以在b站上找到相关的视频：https://www.bilibili.com/video/av16921335/#page=22

1、Actor-Critic算法原理

我们为什么要有Actor-Critic呢，下面的话摘自莫烦老师的文章：

我们有了像 Q-learning这么伟大的算法, 为什么还要瞎折腾出一个 Actor-Critic? 原来 Actor-Critic 的 Actor 的前生是 Policy Gradients, 这能让它毫不费力地在连续动作中选取合适的动作, 而 Q-learning 做这件事会瘫痪. 那为什么不直接用 Policy Gradients 呢? 原来 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他的以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率.

上面的一段话不仅解释了为什么会有Actor-Critic这么一个算法，同时也告诉了我们，这个算法具体是怎么做的。如果大家已经心中有数并且想马上看代码的话，这一段是可以直接跳过的。既然Actor其实是一个Policy Network ,那么他就需要奖惩信息来进行调节不同状态下采取各种动作的概率，在传统的Policy Gradient算法中，这种奖惩信息是通过走完一个完整的episode来计算得到的。这不免导致了学习速率很慢，需要很长时间才可以学到东西。既然Critic是一个以值为基础的学习法，那么他可以进行单步更新，计算每一步的奖惩值。那么二者相结合，Actor来选择动作，Critic来告诉Actor它选择的动作是否合适。在这一过程中，Actor不断迭代，得到每一个状态下选择每一动作的合理概率，Critic也不断迭代，不断完善每个状态下选择每一个动作的奖惩值。

下图就简单的介绍了Actor-Critic算法的流程：

但Actor-Critic并不是一个完善的算法，后面还会提到进一步的改进:

Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西。

2、代码解析

本文的github地址为：https://github.com/princewen/tensorflow_practice/tree/master/Basic-Actor-Critic

2.1 Actor

定义Actor输入
在这里，由于我们的Actor可以进行单次训练，所以我们的输入只需要是一个状态，一个动作和一个奖励：

self.s = tf.placeholder(tf.float32,[1,n_features],name='state')
self.a = tf.placeholder(tf.int32,None,name='act')
self.td_error = tf.placeholder(tf.float32,None,"td_error")

Actor的网络定义
Actor的神经网络结构和我们的Policy Gradient定义的是一样的，是一个双层的全链接神经网络：

with tf.variable_scope('Actor'):
    l1 = tf.layers.dense(
        inputs = self.s,
        units = 20,
        activation = tf.nn.relu,
        kernel_initializer = tf.random_normal_initializer(mean=0,stddev=0.1),
        bias_initializer = tf.constant_initializer(0.1),
        name = 'l1'
    )

    self.acts_prob = tf.layers.dense(
        inputs = l1,
        units = n_actions,
        activation = tf.nn.softmax,
        kernel_initializer = tf.random_normal_initializer(mean=0,stddev=0.1),
        bias_initializer = tf.constant_initializer(0.1),
        name = 'acts_prob'
    )

损失函数
损失函数还是使用的Policy Gradient中提到过的loss= -log(prob)*vt,只不过这里的vt换成了由Critic计算出的时间差分误差td_error

with tf.variable_scope('exp_v'):
    log_prob = tf.log(self.acts_prob[0,self.a])
    self.exp_v = tf.reduce_mean(log_prob * self.td_error)


with tf.variable_scope('train'):
    self.train_op =  tf.train.AdamOptimizer(lr).minimize(-self.exp_v)

Actor训练
Actor的训练只需要将状态，动作以及时间差分值喂给网络就可以。

def learn(self,s,a,td):
    s = s[np.newaxis,:]
    feed_dict = {self.s:s,self.a:a,self.td_error:td}
    _,exp_v = self.sess.run([self.train_op,self.exp_v],feed_dict=feed_dict)
    return exp_v

选择动作

选择动作和Policy Gradient一样，根据计算出的softmax值来选择动作

def choose_action(self,s):
    s = s[np.newaxis,:]
    probs = self.sess.run(self.acts_prob,feed_dict={self.s:s})
    return np.random.choice(np.arange(probs.shape[1]),p=probs.ravel())

2.2 Critic

定义Critic输入

Critic要反馈给Actor一个时间差分值，来决定Actor选择动作的好坏，如果时间差分值大的话，说明当前Actor选择的这个动作的惊喜度较高，需要更多的出现来使得时间差分值减小。
考虑时间差分的计算：
TD = r + gamma * f(s') - f(s),这里f(s)代表将s状态输入到Critic神经网络中得到的Q值。
所以Critic的输入也分三个，首先是当前状态，当前的奖励，以及下一个时刻的奖励折现值。为什么没有动作A呢？动作A是确定的呀，是Actor选的呀，对不对！还有为什么不是下一时刻的Q值而不是下一个时刻的状态，因为我们已经在计算TD时已经把状态带入到神经网络中得到Q值了。相信你看代码就明白了。

self.s = tf.placeholder(tf.float32,[1,n_features],name='state')
self.v_ = tf.placeholder(tf.float32,[1,1],name='v_next')
self.r = tf.placeholder(tf.float32,None,name='r')

定义网络结构

同Actor一样，我们的Critic也是一个双层的神经网络结构。

with tf.variable_scope('Critic'):
    l1 = tf.layers.dense(
        inputs = self.s,
        units = 20,
        activation = tf.nn.relu,
        kernel_initializer = tf.random_normal_initializer(0,0.1),
        bias_initializer = tf.constant_initializer(0.1),
        name = 'l1'
    )

    self.v = tf.layers.dense(
        inputs = l1,
        units = 1,
        activation = None,
        kernel_initializer=tf.random_normal_initializer(0,0.1),
        bias_initializer = tf.constant_initializer(0.1),
        name = 'V'
    )

定义损失
Critic的损失定义为时间差分值的平方值

with tf.variable_scope('squared_TD_error'):
    self.td_error  = self.r + gamma * self.v_ - self.v
    self.loss = tf.square(self.td_error)


with tf.variable_scope('train'):
    self.train_op = tf.train.AdamOptimizer(lr).minimize(self.loss)

训练Critic
Critic的任务就是告诉Actor当前选择的动作好不好，所以我们只要训练得到TD并返回给Actor就好：

def learn(self,s,r,s_):
    s,s_ = s[np.newaxis,:],s_[np.newaxis,:]

    v_ = self.sess.run(self.v,feed_dict = {self.s:s_})

    td_error,_ = self.sess.run([self.td_error,self.train_op],
                               feed_dict={self.s:s,self.v_:v_,self.r:r})

    return td_error

2.3 整体模型训练

有了Critic之后，Actor就可以进行单步训练和更新了，所以训练中的关键的代码如下：

while True:
      a = actor.choose_action(s)
      s_,r,done,info = env.step(a)
      td_error = critic.learn(s,r,s_)
      actor.learn(s,a,td_error)
      s = s_

3.参考资料

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-1-actor-critic/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271