####用Yarn来做Docker的调度引擎

为什么我要选择使用Yarn来做Docker的调度引擎 http://www.infoq.com/cn/articles/why-i-choose-yarn-for-docker/

反复强调，Hadoop是一个软件集合，包含分布式存储，资源管理调度，计算框架三个部分。他们之间没有必然的关系，是可以独立开来的。而Yarn 就是一个资源管理调度引擎，其一开始的设计目标就是为了通用，不仅仅是跑MR。现在基于Yarn之上的服务已经非常多，典型的比如Spark。

保证你上层的Framework/Application可以移植---Spark是个典型，他可以跑在Mesos上，也可以跑在Yarn上，还可以跑在自己上面（Standalone），实时上，泡在Yarn上的，以及跑Standalone模式的，都挺多的。这得益于Spark本身不依赖于底层的资源管理调度引擎。

在容器调度系统中，如果Yarn的NodeManager直接去管理Docker则需要Yarn本身去做支持，我觉得这是不妥的。Yarn的职责就是做好资源管理，分配，调度即可，并不需要和特定的某个技术耦合，毕竟Yarn是一个通用型的资源调度管理框架。
了解了这个思路后，具体实施就变得简单了，就是开发一个基于Yarn的master-slave程序即可，然后slave去管理对应的Docker容器，包括接受新的指令。master提供管理界面展示容器信息，运行状态即可。

使用 Yarn 来做 docker 调度引擎，听起来挺新鲜的，但是感觉不是很妥。虽然可以实现，但是 Yarn 官方并没有支持 Docker，相对与 MesOS 和 kubernetes 等专门针对容器做调度的项目相比，可能 Yarn 关注的重点不太一样。

编者按Mesos和Yarn都是非常优秀的资源调度框架，社区也有很多的人分析二者的区别以及使用场景。之前InfoQ也有发问聊过二者的关系。目前业界用的较多的是Mesos，这篇文章就是为了解释为什么作者选择使用Yarn而不是Mesos，并介绍了如何基于Yarn开发分布式程序。本文首发于祝威廉的博客，经授权由InfoQ转载发布。
前言Mesos其实我不是非常熟悉，所以有些内容可能会有失偏颇，带有个人喜好。大家也还是需要有自己的鉴别能力。
Mesos和Yarn都非常棒，都是可编程的框架。一个硬件，不能编程，就是死的，一旦可以编程就活了，就可以各种折腾，有各种奇思妙想可以实现，同样的，一个软件，只要是可编程的，基本也就活了，容易形成生态。
Yarn VS Mesos我先说说在做容器调度引擎的时候，为什么选择Yarn而不是Mesos。
可部署性先说明下，这里探讨的是Yarn或者Mesos集群的部署，不涉其上的应用。Yarn除了依赖JDK，对操作系统没有任何依赖，基本上放上去就能跑。Mesos因为是C/C++开发的，安装部署可能会有库依赖。这点我不知道大家是否看的重，反正我是看的相当重的。软件就应该是下下来就可以Run。所以12年的时候我就自己开发了一套Java服务框架，开发完之后运行个main方法就行。让应用包含容器，而不是要把应用丢到Tomcat这些容器，太复杂，不符合直觉。
二次开发Yarn 对Java/Scala工程师而言，只是个Jar包，类似索引开发包Lucene，你可以把它引入项目，做任何你想要的包装。这是其一。
其二，Yarn提供了非常多的扩展接口，很多实现都是可插拔。可替换的，在XML配置下，可以很方便的用你的实现替换掉原来的实现，没有太大的侵入性，所以就算是未来Yarn升级，也不会有太大问题。
相比较而言，Mesos更像是一个已经做好的产品，部署了可以直接用，但是对二次开发并不友好。
生态优势Yarn 诞生于Hadoop这个大数据的“始作俑者”项目，所以在大数据领域具有先天优势。
底层天然就是分布式存储系统HDFS，稳定高效。
其上支撑了Spark、MR等大数据领域的扛顶之座，久经考验。
社区强大，最近发布版本也明显加快，对于长任务的支持也越来越优秀。
长任务支持谈及长任务（long running services）的支持，有人认为早先Yarn是为了支持离线短时任务的，所以可能对长任务的支持有限。其实大可不必担心，譬如现在基于其上的Spark Streaming就是7x24小时运行的，跑起来也没啥问题。一般而言，要支持长任务，需要考虑如下几个点：
Fault tolerance，主要是AM的容错。
Yarn Security，如果开启了安全机制，令牌等的失效时间也是需要注意的。
日志收集到集群。
还有就是资源隔离和优先级。如果资源隔离做的太差，会对长时任务产生影响。
大家感兴趣可以先参考Jira。我看这个Jira 13年就开始了，说明这事很早就被重视起来了。下面我们队提到的几个点做下解释。
Fault toleranceYarn 自身高可用。目前Yarn的Master已经实现了HA。
AM容错，我看从2.4版本（看的源码，也可能更早的版本就已经支持）就已经支持 keep containers across attempt 的选项了。什么意思呢？就是如果AM挂掉了，在Yarn重新启动AM的过程中，所有由AM管理的容器都会被保持而不会被杀掉。除非Yarn多次尝试都没办法把AM再启动起来（默认两次）。这说明从底层调度上来看，已经做的很好了。
日志收集到集群日志收集在2.6版本已经是边运行边收集了。
资源隔离资源隔离的话，Yarn做的不好，目前有效的是内存，对其他方面一直想做支持，但一直有限。这估计也是很多人最后选择Mesos的缘由。但是现在这点优势Mesos其实已经荡然无存，因为Docker容器在资源隔离上已经做的足够好。Yarn和Docker一整合，就互补了。
小结Mesos 和 Yarn 都是非常优秀的调度框架，各有其优缺点，弹性调度，统一的资源管理是未来平台的一个趋势，类似的这种资源管理调度框架必定会大行其道。
一些常见的误解脱胎于Hadoop，继承了他的光环和生态，然而这也会给其带来一定的困惑，首先就是光环一直被Hadoop给盖住了，而且由于固有的惯性，大家会理所当然的认为Yarn只是Hadoop里的一个组件，有人会想过把Yarn拿出来单独用么？
然而，就像我在之前的一篇课程里，反复强调，Hadoop是一个软件集合，包含分布式存储，资源管理调度，计算框架三个部分。他们之间没有必然的关系，是可以独立开来的。而Yarn 就是一个资源管理调度引擎，其一开始的设计目标就是为了通用，不仅仅是跑MR。现在基于Yarn之上的服务已经非常多，典型的比如Spark。
这里还有另外一个误区，MR目前基本算是离线批量的代名词，这回让人误以为Yarn也只是适合批量离线任务的调度。其实不然，我在上面已经给出了分析，Yarn 是完全可以保证长任务的稳定可靠的运行的。
如何基于Yarn开发分布式程序本文不会具体教你如何使用Yarn的API，不过如果你想知道Yarn的API，但是又觉得官方文档太过简略，我这里倒是可以给出两个建议：
代码使用范例可以参看Spark Yarn相关的代码。算的上是一个非常精简的Yarn的adaptor。
买本Yarn相关的书，了解其体系结构也有助于你了解其API的设计。
接下来的内容会探讨以下两个主题：
基于Yarn开发分布式程序需要做的一些准备工作
基于Yarn开发容器调度系统的一些基本思路
基于Yarn开发分布式程序需要做的一些准备工作肯定不能撸起袖子就开始干。开始动手前，我们需要知道哪些事情呢？
Yarn原生的API太底层，太复杂了如果你想愉快的开发Yarn的应用，那么对Yarn的API进行一次封装，是很有必要的。 Yarn为了灵活，或者为了能够满足开发者大部分的需求，底层交互的API就显得比较原始了。自然造成开发难度很大。这个也不是我一个人觉得，现在Apache的Twill，以及Hulu他们开发的时候Adaptor那一层，其实都是为了解决这个问题。那为什么我没有用Twill呢，第一是文档实在太少，第二是有点复杂，我不需要这么复杂的东西。我觉得，Twill与其开发这么多功能，真的不如好好写写文档。
最好是能开发一个解决一类问题的FrameworkYarn只是一个底层的资源管理和调度引擎。一般你需要基于之上开发一套解决特定问题的Framework。以Spark为例，他是解决分布式计算相关的一些问题。而以我开发的容器调度程序，其实是为了解决动态部署Web应用的。在他们之上，才是你的应用。比如你要统计日志，你只要在Spark上开发一个Application 。比如你想要提供一个推荐系统，那么你只要用容器包装下，就能被容器调度程序调度部署。
所以通常而言，基于Yarn的分布式应用应该符合这么一个层次：
Yarn -> Adapter -> Framework -> Application
Adapter 就是我第一条说的，你自个封装了Yarn的API。 Framework就是解决一类问题的编程框架，Application才是你真正要解决业务的系统。通过这种解耦，各个层次只要关注自己的核心功能点即可。
保证你上层的Framework/Application可以移植Spark是个典型，他可以跑在Mesos上，也可以跑在Yarn上，还可以跑在自己上面（Standalone），实时上，泡在Yarn上的，以及跑Standalone模式的，都挺多的。这得益于Spark本身不依赖于底层的资源管理调度引擎。
这其实也是我上面说的两条带来的好处，因为有了Adaptor，上层的Framework可以不用绑死在某个资源调度引擎上。而Framework则可以让Applicaiton 无需关注底层调度的事情，只要关注业务即可。
另外，你费尽心机开发的Framework上，你自然是希望它能跑在更多的平台上，已满足更多的人的需求，对吧。
基于Yarn开发容器调度系统的一些基本思路首先我们需要了解两个概念：
哑应用。所谓哑应用指的是无法和分布式系统直接进行交互，分布式系统也仅仅透过容器能进行生命周期的控制，比如关闭或者开启的应用。典型的比如MySQL、Nginx等这些基础应用。他们一般有自己特有的交互方式，譬如命令行或者socket协议或者HTTP协议。
伴生组件。因为有了哑应用的存在，分布式系统为了能够和这些应用交互，需要有一个代理。而这个代理和被代理的哑应用，具有相同的生命周期。典型的比如，某个服务被关停后，该事件会被分布式系统获知，分布式系统会将该事件发送给Nginx的伴生组件，伴生组件转化为Nginx能够识别的指令，将停止的服务从Nginx的ProxyBackend列表中剔除。
在容器调度系统中，如果Yarn的NodeManager直接去管理Docker则需要Yarn本身去做支持，我觉得这是不妥的。Yarn的职责就是做好资源管理，分配，调度即可，并不需要和特定的某个技术耦合，毕竟Yarn是一个通用型的资源调度管理框架。
那基于上面的理论，我们基于Yarn，开发一套框架，这个框架会是典型的 master-slave结构（这是Yarn决定的）。这个框架的 slaves 其实都是Docker 的伴生对象。master 可以通过这些Slave 对容器实现间接的管理。
我们简单描述下他们的流程：
用户提交Application，申请资源；
Yarn启动Framework的master；
Yarn启动Framework的slave；
slave 连接上master，并且发送心跳，从而master知道slave的状况slave启动Docker，slave与被启动的这个docker container 一一对应；
slave定时监控Container；
slave发现container crash，slave自动退出，Yarn获得通知，收回资源；
master发现有节点失败，发出新的节点要求，重新在另外一台服务器上启动slave，重复从2开始的步骤。
这里还有一个问题，如果slave 被正常杀掉，可以通过JVM ShudownHook 顺带把Container也关掉。但是如果slave被kill -9 或者异常crash掉了，那么就可能导致资源泄露了。目前是这个信息是由master上报给集群管理平台，该平台会定时清理。你也可以存储该信息，譬如放到Redis或者MySQL中，然后启动后台清理任务即可。
了解了这个思路后，具体实施就变得简单了，就是开发一个基于Yarn的master-slave程序即可，然后slave去管理对应的Docker容器，包括接受新的指令。master提供管理界面展示容器信息，运行状态即可。
当然，你还可以再开发一套Framework B专门和Nginx交互，这样比如上面的系统做了节点变更，通知B的master，然后B的master 通过自己的伴生组件Slave 完成Nginx的更新，从而实现后端服务的自动变更和通知。
现在看来，是不是这种概念完美的覆盖了应用之间的交互呢？

最后编辑于：2017.12.08 16:16:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270

####用Yarn来做Docker的调度引擎

推荐阅读更多精彩内容