强化学习基础

1、背景介绍

学习和推理是人类智能最重要的体现，为了使计算机也能够像人一样学习和决策，机器学习技术应运而生。机器学习利用计算机来模拟和实现人类学习和解决问题的过程，计算机系统通过不断自我改进和学习，自动获取知识并作出相应的决策、判断或分析。机器学习是人工智能的一个重要的研究领域，根据是否从系统中获得反馈，可以把机器学习分为有监督、无监督和强化学习三大类。

监督学习也称有导师学习，给定系统一组输入时，需要给定一组对应的输出，系统在一种已知输入-输出数据集的环境习学习。与监督学习相反的是无监督学习，也称无导师学习。无监督学习中，只需要给定一组输出，不需要给定对应的输出，系统自动根据给定输入的内部结构来进行学习。有监督和无监督的机器学习模式可以解决绝大多数的机器学习问题，但这两种机器学习模式同人类学习、生物进化的过程有很大的不同。生物的进化是一种主动对环境进行试探，并根据试探后，环境反馈回来的结果进行评价、总结，以改进和调整自身的行为，然后环境会根据新的行为作出新的反馈，持续调整的学习过程。体现这一思想的学习模式在机器学习领域称为强化学习（Reinforcement Learning， RL），又称增强学习。因此，强化学习是一种痛有监督学习、无监督学习并列的机器学习模式。

2、强化学习系统

整个强化学习系统由智能体（Agent）、状态（State）、奖赏（Reward）、动作（Action）和环境（Environment）五部分组成，系统示意图如下图所示。

智能体（Agent）：Agent是整个强化学习系统核心。它能够感知环境的状态（State），并且根据环境提供的强化信号（Reward Si），通过学习选择一个合适的动作（Action），来最大化长期的Reward值。简而言之，Agent就是根据环境提供的Reward做为反馈，学习一系列的环境状态（State）到动作（Action）的映射，动作选择的原则是最大化未来累积的Reward的概率。选择的动作不仅影响当前时刻的Reward，还会影响下一时刻甚至未来的Reward，因此，Agent在学习过程中的基本规则是：如果某个动作（Action）带来了环境的正回报（Reward），那么这一动作会被加强，反之则会逐渐削弱，类似于物理学中条件反射原理。

环境（Environment）：环境会接收Agent执行的一系列的动作（Action），并且对这一系列的动作的好坏进行评价，并转换成一种可量化的（标量信号）Reward反馈给Agent，而不会告诉Agent应该如何去学习动作。Agent只能靠自己的历史（History）经历去学习。同时，环境还像Agent提供它所处的状态（State）信息。环境有完全可观测（Fully Observable）和部分可观测（Partial Observable）两种情况。

奖赏（Reward）：环境提供给Agent的一个可量化的标量反馈信号，用于评价Agent在某一个时间步（time Step）所做action的好坏。强化学习就是基于一种最大化累计奖赏假设：强化学习中，Agent进行一系列的动作选择的目标是最大化未来的累计奖赏（maximization of future expected cumulative Reward）。

历史（History）：历史就是Agent过去的一些列观测、动作和reward的序列信息: Ht = S1,R1,A1,.......At-1,St,Rt。 Agent根据历史的动作选择，和选择动作之后，环境做给出的反馈和状态，决定如何选择下一个动作（At）。

状态（State）：状态指Agent所处的环境信息，包含了智能体用于进行Action选择的所有信息，它是历史（History）的一个函数：St = f（Ht）。

可见，强化学习的主体是Agent和环境Environment。Agent为了适应环境，最大化未来累计奖赏，做出的一些列的动作，这个学习过程称为强化学习。

3、强化学习的基本要素

一个强化学习系统，除了Agent和环境（Environment）之外，还包括其他四个要素：策略（Policy，P）、值函数（Value Function，V）、回报函数（Reward Function ，R）和环境模型（Environment Model），其中，环境模型是可以有，也可以没有（Model Free）。这四个要素之间的关系如下图所示。

策略（Policy）：表示状态到动作的映射。策略的表达式如下。

定义Agent在t时刻的行为方式，直接决定Agent的行动，是整个强化学习系统的核心。策略pi : S X A -> [0,1]或者pi： S -> A，表示在状态S下选择动作A的概率，其中，S代表Agent所有状态State的集合（状态空间），A代表Agent所有动作集合（动作空间）。在任意的状态（State）下，存在由策略pi组成了策略集合F，任意策略pi属于F，在策略集合存在一个使问题具有最优效果的策略pi，称为最优策略，强化学习的目的寻找最优的策略pi。

回报函数（Reward Function）：定义了强化学习问题的目标，Agent通过一些列的策略（Policy）选择，最终通过回报函数映射到一个Reward信号，产生关于一个动作好会的评价。Reward信号是一个标量，一般采用正数表示奖赏，负数表示惩罚。

值函数（Value Function）：回报函数计算当前的策略的好坏，但没法衡量策略未来的好坏，因此，通过值函数（Value Function）来预测未来的Reward的值，从长远角度来评价策略的好坏。为什么需要从未来角度来衡量策略pi的好坏？有两个原因：1、环境对于策略的给出的评价往往是由延迟的；2、Agent选择的当前动作或者策略，会对未来的状态或者策略选择产生影响，Agent在进行动作选择时，某些动作产生的当前回报值比较高，但从长远来看，可能并没有那么高。因此，需要采用值函数（Value Function）来评估Agent所处的状态的好坏，指导Agent进行动作（Action）的选择。值函数的表达式如下。

环境模型（Environment Model）：它使强化学习系统中可选的部分。将强化学习和动态规划等方法结合在一起，环境模型用于模拟环境的行为方式，比如，给定一个状态和动作情况下，环境模型可以预测下一步的状态和回报。借助环境模型，Agent可以在进行策略选择时，考虑未来可能发生的情况，提前进行规划。用P表示下一步状态，R表示下一步的回报，环境模型可以表示成如何形式。

作者：石晓文的学习日记

链接：https://www.jianshu.com/p/d24bbd633362

來源：简书

简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271

强化学习基础

推荐阅读更多精彩内容