中小公司如何启动运维平台构建之路

这里所谓的中小公司，是我的个人定义，服务器数量在5000以下的公司。大公司通常都已经走上了这条路，应该不会看我这篇文章了：）

运维平台收益

先说说为啥要开启自动化运维这条路，其实简单，主要目的有二：

业务运行可用可靠
业务迭代既稳又快

我们希望通过构建一整套运维平台，来规范研发的变更流程，来及时发现线上问题，能够快速止损故障，同时把机器管理明白，权限分配清楚，服务梳理透彻。规范化之后，后面做一些统一的服务治理或者一些公共组件/服务，都可以依托平台的元信息来搞，说是基石也不为过也。

从痛点处着手

首先胸中需有丘壑，胸中需有蓝图，运维蓝图可参看我之前的文章：《运维蓝图思考》。知道未来理想状态了，然后低头看现状，最后制定达到理想状态的路径。

有句话说的好，“架构是演进出来的，不是设计出来的”，各个公司的情况各异，需要有针对性的实施。从哪里着手？从自己公司的当前痛点着手。在这个阶段，我个人猜测，可能会有下面的困扰：

有部分机器给了业务A，部分机器给了业务B，需要有个地方来记录这个对应关系，记录机器上面部署了什么服务，接口人是谁，要不然，机器要做什么操作的时候，或者机器报警了，都不知道该联系谁
机器经常要做一些批量操作，批量安装lib，调整配置，查看机器配置，跑个脚本，需要控制权限，业务A的机器只能业务A的同学才能操作，操作历史要可审计，谁干了啥都得有记录。中控机信任关系管理麻烦，批量操作速度慢，结果不好查看不好筛选
安装一些常见软件，比如MySQL、redis、kafka等，不同业务安装的方式、版本、参数配置千差万别，缺少一个最佳实践，也没有很好的沉淀，自己需要自己攒，业务A的同学对这些软件的知识积累，业务B的同学无法享受到
线上出了问题，有很多时候是客户先发现，我们被通知，非常被动。我们的业务有一些营收指标，需要有个系统来看展示历史趋势图，重要业务指标如果下跌也得及时报警。当然，机器硬件出问题，进程挂了等基础问题也是需要及时报警出来的

针对上面的问题，我们可以构建一些基本的平台系统来解决。下面挨个阐述...

服务机器管理

这是第一个系统，记录管理了很多元数据，要求数据准确，其他系统会依赖此系统的数据。系统构建思路：

1，机器要想知道归属哪个团队哪个业务线，部署了哪个服务哪个模块，首先系统里得先有团队、业务线、服务、模块这些概念，要不然机器跟什么关联呢
2，本质上是对机器做了分组，常见分组机制就是一维的扁平分组和多维的标签，类似你的博客系统。可以对一篇博文指定分类，也可以同时打多个标签
3，由于机器可能混部，一个机器需要同时属于多个分组，这种情况用一维的分组就不好描述了，首推标签的方式，标签可以是K=V的方式，K实际是个维度信息，比如dept=sre,service=minos,module=web，假设有5台机器打上了这3个标签，其意为：部门这个维度上来看，这5台机器属于sre这个部门，服务这个维度上来看，这5台机器属于minos这个服务，模块这个维度上来看，这5台机器部署了web这个模块
4，看起来很完美，但是，标签最致命的一点是不够直观，比如我想通过标签搜索机器，首先你得知道有哪些标签，这个是最麻烦的
5，所以笔者待过的四家公司都是用树状结构来描述这个分组关系，相对会直观很多，树的每个节点其实是有业务语义的，类似一个标签，只是这个标签具备了层级关系

批量执行平台

常见的运维批量操作工具有很多，比如pssh、ansible、fabric、salt等，各有优劣，对我而言，他们或多或少存在这些问题：

安全性，不方便和内部权限配置系统整合
效率低，基于SSH的方案通常在大批量操作时比较费劲
结果不好查看，哪些机器成功，哪些机器失败，哪些机器超时，需要做一些工作才能筛选，脚本的输出也不是很好查看
不好审计，哪些人执行过哪些脚本没有历史记录
不好沉淀，可以自己总结一些脚本，但是系统层面没有管理类的支持
没有良好的并发控制、暂停点支持，但业务一般是灰度发布

所以，我们建议自研一套，解决如上问题，构建思路也比较简单：
1，所有机器部署一个agent，用来执行命令
2，agent周期性跟server心跳，询问我有哪些脚本任务要跑
3，拿到要跑的脚本在本地执行，完了将结果汇报
4，server端提供一个web和api让用户来创建任务，展示结果
5，server端提供一个调度模块来调度大批量机器的执行，控制并发度，如果有失败的机器可以及时停下来

监控系统

这是第三个迫切需要构建的系统，由于前面两个要自研，监控有不少开源软件，所以很多情况都是现有监控：）

对于监控系统，我们不能只停留在OS、硬件、进程相关监控上，业务的订单量、库存余量这类直接反应业务健康状况的指标更是尤为重要。由于服务通常有容灾能力，部署多个实例，某个机器挂了，可能影响不大，但是业务指标下跌，比如订单下跌，问题就大了，需要第一时间跟进。

常见的监控系统比如zabbix、nagios、open-falcon、prometheus等，因为笔者是open-falcon的早期开发人员，自然推荐open-falcon，读者可以自行选择：）

上面提到的机器/服务管理、批量执行、权限系统，我们正在搞一个开源版本，有兴趣的可以参与进来

最后编辑于：2018.12.20 16:24:35

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,012评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,589评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,819评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,652评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,954评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,381评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,687评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,404评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,082评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,355评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,880评论 1赞 255
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,249评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,864评论 3赞 232
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,007评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,760评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,394评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,281评论 2赞 259