SRE可靠性设计的行业参考

谷歌SRE比对其它行业的可靠性设计的最佳实践,分为四个部分:

一、准备和灾备测试

SRE文化是永远警觉和持续质问:什么有可能会出错?在处理问题的时候,我们能采取什么样的措施来防止事态扩大化或者数据丢失?

灾备测试的原因是:1.确保系统按照我们所想的工作;2.找到预料之外的的系统弱点;3.找到使系统更强壮的方法来预防不可控的断供。

其它行业的灾备测试策略包括:

1.组织不断强调质量

制造业:核能源、军用飞行器、铁路信号工业

2.关注细节

美国海军:执行小任务时的高度警觉意识,如润滑油维护,一个很小的疏忽或失误都可能带来极大的影响。系统高度内联,一个区域的事故会影响多个相关的部件。核海军聚焦日常维护,确保小问题不出现雪球效应。

3. 容量变动

电信行业:受到不可预期的事件如自然灾害或可预见的事件如奥运会影响,绝对容量受限制。通过移动电信办公室来解决系统容量过载问题。

4.仿真和现场演练

航空行业的事故演练

电信行业的飓风和其它极端天气演练

美国海军的“假如”思考练习和现场演练

救生员的溺水演练

5.训练和证明

都认为非常有必要

6.聚焦具体的需求收集和设计

医疗:眼外科手术机器设计要注意防呆

7.深度和广度防御

核能业:对失败和事故的0容忍

二、.事后文化

正确的和预防性的措施是大家熟知的聚焦问题根因来提高可靠性的概念,为了避免问题再现,如下评估很重要:

a.发生了什么?

b.响应的有效性

c.下次处理会有什么不同

d.采取什么措施才能确保下次发生相同的事故

这些活动不是针对个人的,也不是为了责罚,而是作为组织层面要了解出了什么错误,确保这个问题不再发生。事后文化可以让事故在整个SRE团队内获得收益。//重点在分析,不在惩罚。

救生员行业:救生员的脚一旦下水,就要提交报告。

三、自动化和减少操作成本

谷歌的SRE对重复性的工作忍受度很低。

核海军:潜水艇上的工作是由一系列信任的人来管理的,而不是一个人。他们也同时考虑到自动化和电脑更新太快,很容易导致一个不可修复的失误。当你和核反应堆打交道的时候,快不是最关键的,慢而稳定的方式更重要。

财产交易行业:电脑执行速度很快,若任务不正确,造成的损失非常大。

制造业:自动化来追求效率和成本。

核工业:植物需要在30分钟内对给定的环境做出反应,自动化非常有必要。

航空业:自动化的前提是安排人监控。

医疗业:自动化很好的减少了激光眼睛手术的使用失误。

四、结构和理性的选择决定

数据必须是严谨的,团队在做决定前必须满足以下条件:

1. 决定的基础是考虑到了将来的情况才被同意的,而不是基于过去的事实。

2. 决定的输入必须清晰

3. 任何假设的状态都是明确的

4. 数据驱动的决策必须要得到房间内大多数高级工程师的同意

电信业&核工业:所有的决定都是在“if  it works now, don't change it”思维方式下做的。很多行业在问题解决上严重依赖于操作指导和手册。其它行业也采取清晰的数据驱动方式来做决定。但有些行业(如财产交易)把决策制定划分到在更好的管理风险这类:问题一旦发生,先关闭机器。没有交易虽然不赚钱,但是至少不在损失钱。

总结:行业调查表明,谷歌在软件更新的要求上比其它行业要更高。

重点:谷歌通过其它行业的可靠性理解创造出自己的可靠性文化:在规模、复杂度、变化速度和可靠性之间寻求到平衡的一个复杂公式。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容