云计算保障系统SLA之线上打桩

时间是我们最大的敌人 --奇异博士

云计算一个难点在于保障系统的高可用,当在发生故障的时候,能够尽快的恢复(参考最近的gitlab和亚马逊s3故障教训)。如同奇异博士所说,工程师是在和时间作斗争。监控和报警是工作的重中之重。一般来说,我们肯定会做好宿主机层面和服务层面的监控报警,否则系统形如裸奔。

然而,某些场景中,宿主机和服务运行正常,但是上面的虚拟机被异常关机或者重启,抑或网络连通性出现问题(包括私有网,外网,以及不带外网的情况下通过L3访问外网等),上述情况下现有的监控覆盖不到,不能及时发现问题;另外,每次线上更新主机和网络的服务,需要观察升级对已有云主机的影响。基于上述问题,从用户角度出发,有了这个线上打桩监控的方案,切实提升系统可用性和服务SLA。

背景

由于目前的环境部署中,部分线上以及线下环境存在较大的配置和环境差异,导致部分问题线下测试中不存在,无法提前发现,但是上线以后却会对线上的业务运行造成影响;

为了可以更好的进行线上环境升级过程中虚拟机网络连通性,以及升级以后的业务正确性检查,考虑通过线上预埋部分打桩虚拟机,并在虚拟机内部部署自动化测试脚本的方式来实现;在发现问题以后,可以通过邮件或IM报警的方式及时进行日志推送,及时发现问题和风险,更好的保障线上的稳定性和对外版本质量。

实现思路概述

线上所有节点部署一台虚拟机,虚拟机内部部署测试工具进行线上业务的网络监控,主要实现的功能包括:
1)同用户私有网互联,所有节点之间,虚拟机的私有网采用固定ip的形式
2)机房网互连,部分节点间进行,包括同用户和跨用户均包含(跨租户主要进行acl的功能检查)
3)私有网访问外网连通性/dns解析功能,部分节点中的部分虚拟机(dns-server功能验证、L3功能检查)
4)外网访问外网连通性/dns解析功能,部分节点中的部分虚拟机(外网检查、dns-server功能验证)
5)公共服务访问/优先路由验证(虚拟机路由推送功能验证)

其中,网络连通性方面通过ping进行检查,时间间隔为0.2s,结果方式采用如下的形式进行记录:
[date] [src_ip] [dst_ip] [state] 例如:07/14/15---15:39:43 10.180.164.230 10.180.164.231 ok

网络方面无异常出现的情况不做任何推送操作,仅打印日志记录;在网络出现异常后,打印日志,同时通过IM或邮件的形式进行实施告警推送。

此部分为了应对一些维护场景导致的网络异常出现,实现中可配置业务开关来设置是否推送告警,如确定为维护操作或其他已知人为操作导致的异常,可关闭开关停止告警;并且可以在业务恢复后打开开发继续进行监控。

由于实现中,需要在每个节点进行虚拟机的预埋,所以会占用部分线上的资源,使用中会选取最小的规格(1v1e,512M内存)来进行验证,尽量少的占用系统资源。

实现

主要通过python fabric模块,进行打桩机脚本与配置文件的下发和服务的部署。

Paste_Image.png

另外需要考虑到日志回滚,进程守护等问题。进行好logrotate,和supervisor配置文件的准备。

配置说明

  • 本程序是通过读取 private_network.list 进入对应的云主机(用root登录)
  • 另外需要准备这些 云主机 root 账户的ssh私钥。并在 remote_test.py 中进行配置
  • 在 /config 目录下的 global.conf 进行全局配置。包括邮件报警是否开启,收件人,测试的环境等

ip_list 目录下,各个需要 check 的 ip list 准备好

  • 私有网
  • 机房网
  • 外网ip
  • dns 连通性测试ip

运行

执行一次,在命令行下看连通性结果。

fab -f network_check.py dry_run

拉起所有节点云主机测试连通性服务。

fab -f network_check.py start

停止所有节点测试连通性服务。

fab -f network_check.py stop

抓回所有节点的日志。

fab -f network_check.py get_log

并行执行,可以加上 -P 参数。

fab -f network_check.py start -P

实现效果展示

报警消息

Paste_Image.png

登录到哨兵监控节点看一下日志,果然在10:40左右10.173.32.77网络连通性异常。


Paste_Image.png

通过私有网ip反查对应宿主机所在节点。


Paste_Image.png

查看宿主机对应的监控,果然在该段时间内有异常产生。

Paste_Image.png

结论

通过在物理机上部署打桩的云主机,进行网络连通性检测,能够更早的发现某些异常场景,为问题排查与服务恢复争取更多时间。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容

  • 背景介绍 2015年12月,InfoQ的编辑魏星邀请作者撰写一篇关于中国公有云服务发展状况的文章。因为作者个人对公...
    蝎子看互联网阅读 1,310评论 0 50
  • 1. OSI,TCP/IP,五层协议的体系结构,以及各层协议 OSI分层 (7层):物理层、数据链路层、...
    iCaptain阅读 2,370评论 0 4
  • 1.这篇文章不是本人原创的,只是个人为了对这部分知识做一个整理和系统的输出而编辑成的,在此郑重地向本文所引用文章的...
    SOMCENT阅读 12,979评论 6 174
  • 背单词有很多方法和套路,但也有一些需要遵守的基本要求,包括: 1,一定要用音标背单词。多年的高三教学和近几年的暑期...
    教头阅读 1,145评论 0 13
  • 北方隆冬的窗外实在没什么看头,尤其是我窗外的景色,除了挡眼的楼房之外,再就是愈渐将地面挤得水泄不通却几乎个个顶着满...
    简小佛阅读 278评论 0 0