深度强化学习笔记

强化学习的模型

机器学习分类

机器学习可以分为监督学习（Supervised Learning）、非监督学习（Unsupervised Learning）和强化学习（Reinforcement Learning，RL）三大板块。

强化学习简介

强化学习是一种模拟生物智能体学习最优决策过程的机器学习方法，其主要思想是智能体以试错的方式与环境不断交互，并积累大量经验和获得环境的各种反馈，并从经验中逐渐学习与环境交互的最佳策略。
描述强化学习模型最常用的数学工具是马尔可夫决策过程（Markov Decision Process，MDP）。马尔可夫决策过程是一种满足马尔可夫性的时间序列过程。
马尔可夫性是指一个系统下一时刻的状态只与当前时刻的状态有关，而与之前时刻的状态无关。
强化学习过程的两大主体是智能体（Agent）和环境（Environment）。
- 智能体是策略学习的主体，其任务是学习与环境交互的最佳策略（Policy），这也是强化学习的终极目标。
- 环境一般是指除智能体以外的所有系统过程，其表现形式是环境状态（State）。
马尔可夫决策过程：智能体向环境施加动作（Action），动作会迫使环境状态发生转移，并且环境会给智能体一个反馈信息（Reward）。智能体正是通过“状态→动作→下一状态→反馈”这一系列经验（Experience）过程实现逐渐学习最佳策略。

强化学习分类方式

按照连续性分类

强化学习问题可以分为离散型强化学习问题和连续型强化学习问题。
离散型强化学习问题是指状态空间和动作空间都离散的强化学习任务，这种问题一般具有明确的初始状态和终止状态，环境系统可以在有限时间步到达终止状态。可以用基于表格的方法求解离散型强化学习问题，也就是说，求解离散型强化学习问题实际上就是维持一个值函数表格，当表格中的数据收敛时，也就达到了最优策略。
连续型强化学习问题是指状态空间或动作空间连续的强化学习任务，状态空间连续的强化学习问题可能没有明确的终止状态，智能体和环境的交互会一直进行下去。可以用将连续空间离散化的方法求解连续强化学习问题，但当空间维数较大时，这种方法需要耗费巨大的计算资源，同时精度也不高，所以一般不使用这种方法。表格法在求解大规模强化学习问题上是无能为力的，一般借助深度学习技术来解决大规模强化学习问题。另外一种求解连续型强化学习问题的方法是函数近似法。

按照状态转移信息来分类

强化学习可以分为有模型强化学习（Model-Based RL）和免模型强化学习（Model-Free RL）。
有模型强化学习是指学习过程中使用了状态转移概率函数，根据状态间的已知转移概率来更新值函数的强化学习方法。动态规划法就是典型的有模型强化学习。
免模型强化学习是指在学习过程中不使用环境的状态转移概率函数，仅从智能体和环境交互得到的经验中去学习的强化学习方法。
有模型强化学习和免模型强化学习各有优缺点和适用场景，近年来，将有模型强化学习和免模型强化学习相结合构造更高效的强化学习方法，逐渐成为一个新的研究方向。

按照技术来分类

强化学习可以分为经典强化学习和深度强化学习。
经典强化学习从最优控制发展而来，其基础理论是动态规划法，主要解决简单的离散型强化学习问题。
深度强化学习是将经典强化学习和现代深度学习相结合，深度强化学习擅长解决连续型强化学习任务和大规模强化学习任务。

强化学习的历史

主要发展路线

第1条发展路线是心理学上模仿动物学习方式的试错法。
- 以尝试和错误学习（Trial-and-Error Learning）为中心的一种仿生心理学方法。
第2条发展路线是最优控制问题，主要使用动态规划法。
- 贝尔曼方程：通过利用动态系统中的状态信息和引入一个值函数的概念来定义“最大回报函数”，而这个“最大回报函数”就是求解强化学习通用范式的贝尔曼方程。
- 动态规划法：通过贝尔曼方程来间接求解最优控制问题的方法称为动态规划法（Dynamic Programming，DP）。
- 马尔可夫决策过程的引入使最优控制问题有了一个标准的数学模型。1960年提出了基于马尔可夫决策过程的策略迭代方法。相较于基于贝尔曼方程的方法，策略迭代方法将迭代求解的范式引入最优控制问题求解中。
- 使用动态规划法求解最优控制问题最大的困难在于“维数灾难”，当问题的状态空间连续或状态空间巨大时，动态规划求解需要巨大的计算资源。
第3条发展是基于时序差分求解，将试错法和动态规划法有机地结合起来。

强化学习与机器学习的关系

现代深度强化学习不仅用于解决控制问题，而且还用于解决决策问题、最优化问题、博弈论问题、对策论问题等。
强化学习和监督学习的区别在于强化学习不需要事先准备好训练数据，更没有输出作为监督来指导学习过程。
强化学习有环境反馈的即时奖励和由即时奖励构成的回报，但即时奖励和回报与监督学习的输出不一样，它们并不是事先给出的，而是延后给出的。
强化学习的每步与时间顺序前后关系密切，而监督学习的训练数据一般是相互独立的，即相互之间没有依赖关系。
将强化学习和深度学习相结合的深度强化学习已经和监督学习密不可分了。

强化学习的模型

强化学习过程包括环境、智能体、策略等基本组成部分。

001强化学习基本模型.jpg

强化学习的基本组成要素

强化学习的基本模型：在时间步t，智能体感知环境的状态St，根据当前策略π选择需要执行的动作at，智能体对环境施行动作at后环境状态转移到St+1，与此同时环境给智能体一个反馈信息rt+1，智能体根据这一反馈信息适当地调整当前策略，以使下一时间步根据调整后的策略执行的动作会得到更好的环境反馈，至此当前时间步结束，系统进入下一个时间步。此循环一直进行，直到智能体学习到最优策略为止。
强化学习的基本组成要素如下：
- （1）智能体（Agent）：策略学习的主体，作为学习者或决策者存在。
- （2）环境（Environment）：智能体以外的一切，主要用状态进行描述。
- （3）状态（State）：表示环境特点的数据，可以是向量、矩阵、图片或其他类型的数据，环境在t时刻的状态用符号St或st表示。所有可能的环境状态的全体称为状态集合或状态空间，用S表示。
- （4）动作（Action）：表示智能体做出决策的数据，即向环境施加动作的数据，数据形式可以是一个动作编号、One-Hot向量或一般向量，智能体在t时刻向环境施加的动作用符号At或at表示。智能体所有可能执行的动作的全体称为动作集合或动作空间，用A表示。智能体在状态st时能够执行的合法动作的集合记为A（st）。
- （5）奖励（Reward）：表示环境在交互过程中反馈给智能体的信息，一般用一个实数表示，即rt∈R。一般来讲奖励值越大表明环境对智能体施加的动作的反馈越正向。
- （6）策略（Policy）：智能体在某一状态下采取何种动作的一种决策机制，是智能体学习优化的对象，用π表示智能体的当前策略。

强化学习的执行过程

根据强化学习的基本模型和组成要素，强化学习的执行过程可以归纳如下：
- 步骤1：智能体感知当前环境状态。
- 步骤2：智能体根据当前策略选择将要执行的动作。
- 步骤3：智能体选择的动作被施加到环境中，迫使环境状态发生转移。
- 步骤4：环境状态发生转移，同时，环境向智能体发出一个反馈信号。
- 步骤5：智能体根据接收的环境反馈信号适当地优化自己的策略。
- 步骤6：转步骤1，开始下一次交互，直到环境达到终止状态。
从步骤1到步骤5的过程叫作智能体和环境发生一次交互，或一个时间步。智能体和环境的交互会一直进行，直到环境达到终止状态为止（若存在终止状态）。这时，智能体和环境完成了一个包括多次交互的完整过程，称为一局（Episode）。

马尔可夫决策过程

马尔可夫性，也称无后效性，是指在时间步t+1时，环境的反馈仅取决于上一时间步t的状态st和动作at，与时间步t-1及之前时间步的状态和动作没有关系。
马尔可夫决策过程（Markov Decision Process，MDP）依赖于时序的且具有马尔可夫性的决策过程。
一般的马尔可夫决策过程由状态空间S、动作空间A、状态转移概率函数p和奖励函数R（或r）来描述，即四元组MDP=（S，A，p，R）。
强化学习中的马尔可夫决策过程增加了一个折扣系数γ，用于计算累积折扣奖励，所以用于强化学习的马尔可夫决策过程由一个五元组构成，即MDP=（S，A，p，R，γ）。
- S：状态空间，表示环境的所有可能状态组成的集合。
- A：动作空间，表示智能体能对环境施加的所有可能动作组成的集合。
- p：状态转移概率函数，表示环境在当前状态s下，被智能体施行动作a，状态转移到s′的概率。状态转移概率在数学上可以定义为一个条件概率函数，
- R：奖励函数，表示环境在当前状态s下，被智能体施行动作a后反馈给智能体的奖励值。
- γ：折扣系数，用于计算累积折扣奖励。
马尔可夫序列（MDP Sequence）或马尔可夫链（MDP Chain）：根据马尔可夫决策过程，智能体和环境进行一局交互后，可以得到一条由状态、动作、奖励组成的序列，即一次交互的数据St，At，Rt+1，St+1，t=0，1，…，T-1

001马尔科夫链.jpg

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,458评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,454评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,171评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,062评论 0赞 207
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,440评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,661评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,906评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,609评论 0赞 200
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,379评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,600评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,085评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,409评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,072评论 3赞 237
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,088评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,860评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,704评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,608评论 2赞 270

深度强化学习笔记

强化学习的模型

机器学习分类

强化学习简介

强化学习分类方式

按照连续性分类

按照状态转移信息来分类

按照技术来分类

强化学习的历史

主要发展路线

强化学习与机器学习的关系

强化学习的模型

强化学习的基本组成要素

强化学习的执行过程

马尔可夫决策过程

推荐阅读更多精彩内容