深入浅出强化学习原理入门

第2章马尔可夫决策过程

马尔可夫性，当前系统的下一个状态仅与当前状态有关，而与以往状态无关
马尔可夫过程，以一定的概率在有限状态下转换，吃饭睡觉打豆豆。。。
马尔可夫决策过程，马尔可夫决策过程(S,A,P,R,\gamma)，S是有限状态集合，A是有限动作集合，P为状态转移，R是回报函数，\gamma是折扣因子，马尔可夫决策过程与马尔可夫过程不同的是它的动作是带转移概率的
强化学习的目标是在给定的马尔可夫决策过程中寻找最优策略，这个策略指的是状态到动作的映射，在q-learning中，这个策略就是q表，第一维是状态，第二维是动作
策略，所谓策略是指状态到动作的映射，在q-learning中指的是从一个状态转移到下一个状态到概率
状态值函数V，智能体在状态s时采用策略\pi采取一系列连续动作得到的累积回报的期望，详细一点就是智能体处于状态s，采用策略pi后所有一系列动作得到的回报累积，这里之所以要加期望，是因为有些策略采取的动作是概率，比如书中的例子一个人在某个状态睡觉打游戏是有一定概率大，都有可能发生—挖坑，书中图2.4圆圈中的状态值函数是怎么计算出来的？
状态行为值函数Q，智能体在状态s时采取一步动作后进入下一个状态得到的状态值函数
挖坑—什么是贝尔曼方程？

第3章基于模型的动态规划方法

理解公式v_{k+1}(s) = \sum_{a\in A}\pi(a|s)(R_s^{a+\gamma\sum_{s}\in S}P_{ss}v_k(s`))就行

强化学习中主要使用值函数进行策略评估和策略改善，即训练与推理。上面的公式就是值函数迭代的公式（高斯塞德尔迭代法），从图3.7理解，当前状态的值函数等于采取所有动作得到的回报并加上所到达状态的值函数的期望，具体计算方法见图3.7下面的那个计算例子。

利用值函数进行推理采用贪婪策略，即从当前状态出发，把所有可以采取的动作都做一遍，哪个回报大就采用哪个动作

第4章基于蒙特卡罗的强化学习方法

蒙特卡罗积分，求某个函数在某个区间的定积分，将函数先乘以某个分布已知的函数\pi(x),然后在这个已知的分布上采样，最后求和的均值。
原理，和动态规划的一样，有衡量在某个状态s采取一些列动作获得回报和的状态值函数V，有Q函数，不同的是动态规划的值函数是迭代出来的，蒙特卡洛方法的V函数是采样然后计算出来的
同策略，产生数据的策略和要评估改善的策略是同一个策略，即训练的时候在状态s采取的动作和在推理的时候在状态s采取的动作是否一致，dqn中就是异策略，训练的时候为了尽可能走过所有的状态，状态到动作映射会覆盖所有的状态，但是推理的时候只会选取最有的策略

第5章基于时间差分的强化学习方法

TD方法：V(S_t)<-V(S_t)+\alpha(R_{t+1}+\gamma V(S_{t+1})-V(S_t))

值函数等于上一步的值函数的一个比例加上当前动作后的reward和下一个状态的值函数

时序差分方法，蒙特卡罗方法，动态规划方法的区别与联系，动态规划方法用空间换时间，把每个动作后的Q表都记录下来，在求某个状态的值函数时，在采取了某个动作走到下一个状态时，下一个状态的Q值已经记录下来了，由上一次记录并存储下来，举例见书中图3.7，这个方法需要知道状态的转移概率，在每个状态，采取哪个动作的概率都是需要已知，这个现实中是不好弄的；蒙特卡罗可以解决动态规划需要状态转移矩阵的问题，它从随机初始状态开始，通过多次实验，统计从状态s到最终状态得到的奖励，缺点是效率低，每次都需要等到实验做完，且需要多次实验；时间差分结合了两者优势，用Q表存储记录每次实验后的状态值函数，但是像蒙特卡洛方法一样不停的与周围环境交互得到新数据，不要先验概率

TD(\lambda):TD方法使用了下一个状态的值函数，TD(\lambda)使用多个

动态规划，蒙特卡洛，时间差分的对比

蒙特卡洛：Q(s,a)\leftarrow Q(s,a) + \alpha(G_t - Q(s,a))

在状态s处的状态行为值函数为状态行为值函数+随机试验到状态s时的累积回报（挖坑，Q不是不记忆的吗？）

时间差分：Q(s,a)\leftarrow Q(s,a)+\alpha(r + \gamma Q(s,a)- Q(s,a))

时间差分用空间换时间，用一张Q表记录以前做过的试验，更新的时候通过走一步进入状态s`，并加上以前记录的状态s·共同得到状态s处的状态行为值函数，

第6章基于值函数逼近的强化学习方法

基于值函数逼近理论，在Q-learning，时间差分，蒙特卡洛等方法中，使用Q表记录在什么样的状态采取什么动作会得到什么回报值，基于值函数逼近的就是使用参数\theta表示值函数，输入状态和动作，得到回报的值函数

dqn， Q(s,a)\leftarrow Q(s,a)+\alpha(r + \gamma Q(s,a)- Q(s,a))

               \theta_{t+1}=\theta + \alpha[r + \gamma max_{a`}Q(s`,a`;\theta)- Q(s,a;\theta)] \Delta (Q(s,a;\theta))

计算TD目标网络的参数r + \gamma max_{a}Q(s,a`;\theta)的参数为\theta^{-，而计算值函数的网络参数为\theta，一条数据包括当前状态s_1，采取动作a，立即回报r，下一个动作s_2，取出数据训练时，\theta每一步都更新，\theta}-每隔一定步数才更新；计算的方法为用贪婪策略在某些状态选取动作，存储一下数据，然后采样通过上式子更新参数\theta，目标网络参数只计算，等到若干步以后，才将Q函数的\theta更新到目标函数的Q函数中

第7章基于策略梯度的强化学习方法

直接搜索策略

第8章基于置信域策略优化的强化学习方法

TRPO Trust Region Policy Optimization基于置信域策略优化
\eta(\tilde\pi)=\eta(\pi) + E_{s_0,a_0…\tilde\pi}[\sum_{t=0}^{{\infty}\gamma}tA_{\pi}(s_t,a_t)]，为了搜索好的策略，即关于的策略函数每前进一步，回报函数都会比以前的好，需要更好的\theta的步长，或者把回报函数更改为旧回报函数加上一项不小于0的新值，以保证递增，A_{\pi}(s,a)=Q_{\pi}(s,a)-V_{\pi}(s)
信息论，H(P,Q)=-\int P(x)logQ(x){\rm d}x,交叉熵常用来作为机器学习的损失函数，真是样本分布是P(x)，模型概率分布是Q(x)，两者相等时最小
优化方法，最速下降法，就是朝着导数方向前进，应该就是梯度下降法；牛顿法，使用二阶导数性质的梯度下降法，x_{k+1}=x_k + d_k, G_kd_k=g_k，g_k是一阶导数，G_k是二阶导数，反正就是迭代更新参数x

第9章基于确定性策略搜索的强化学习方法

随机策略指在状态s确定时，智能体采取的动作不一定是一样的，但是确定性策略则不一样，在状态s一定是，它所采取的动作一定是一样的。

Actor-Critic- Algorithm，行动与评估策略，行动策略是随机的以保证可以探索环境，评估策略是确定性的
ddpg，r_t+\gamma Q^{w(s_{t+1},u_{\theta}(s_{t+1})-Q}w(s_t, a_t)),行动策略网络是u，参数为\theta,评估网络Q，参数是w，训练的时候采用贪婪策略探索环境，使用确定性策略更新Q，评估的时候使用Q函数
DQN和DDPG的区别，DQN时离散的，DDPG时连续的；DQN只有一个网络，DDPG有两个网络；

第10章基于引导策略搜索的强化学习方法

无模型时，智能体通过向环境试错得到策略网络，gps算法先通过控制相从数据中获取好的数据，监督相从控制相产生的数据学习模型；之所以要这么干的原因是有些网路有成千上万个参数，用常见的环境试错，无法从环境中学习到好的策略

第11章逆向强化学习

通常强化学习的回报函数都是人为经验给出的，但是这个是很主观的，逆向强化学习就是为了解决如何学习强化学习回报而来的。

学徒学习方法，智能体从专家示例中学习回报函数
最大边际规划方法，先建模D={(x_i,A_i,p_i,F_i,y_i,L_i)}从左到右依次为状态空间，动作空间，状态转移概率，回报函数的特征向量，专家轨迹，策略损失函数，学习者要照一个特征到回报的现行映射

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,026评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,655评论 1赞 296
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,726评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,204评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,558评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,731评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,944评论 2赞 314
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,698评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,438评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,633评论 2赞 247
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,125评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,444评论 3赞 255
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,137评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,103评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,888评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,772评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,669评论 2赞 271

深入浅出强化学习原理入门

推荐阅读更多精彩内容