最近遇到的一次线上事故的反思

最近我负责的一个平台型服务遇到了故障,导致一个用到它的业务部门出现连锁反应,最终发生P0级(公司内部认定的最高级别)事故。

事故恢复后,我这边也做了一些措施可以有效防止再次发生类似的问题,搞定这些事情后,我觉得有必要踏下心来反思一下为什么会出现这个问题了。

对我负责的平台服务的反思

我负责的这个平台服务,是今年5月份从离职的同事手中接手过来的,这个服务之前由一个团队负责,也算是稳定运行了很多年了。

交接过程由于各种原因显得很匆忙,我当时也没有把这个系统全部搞清楚,接手后不久由于服务故障也导致了一次线上事故。

由于我对代码很多不熟悉的地方,当时故障恢复的很慢,最终是自己在线上做代码调试才找到了问题的原因,整个故障恢复时间达到了1天之久。

故障的核心原因,是由于系统架构方面存在一个很严重的问题,想彻底修复需要一定的开发工作量,且还有一些别的原因导致开发上线存在很大的风险性,总之我当时没有选择去修复这个问题,这也为这次的事故埋下了隐患。

为了让服务稳定,我当时确定的方案,是一个长期的系统改造方案,顺利完成的话,即可以修复现有系统的多方面问题,还可以从中学到很多东西,提升自己的技术能力,所以就决定这样做了。

事实证明,由于开发周期较长,中间各种事情的骚扰,导致新系统迟迟无法完成,旧系统最终再次出现问题,导致了这第二次的事故。

随着对旧系统的了解越来越多,这次事故后,我最终想到了几个解决旧系统稳定性的方案:

  1. 代码中做一些和旧系统风格不一致的编码,甚至有对出问题的重点业务的硬编码在里面,但可以做到快速有效解决重点业务的稳定性问题;
  2. 部署上也是,调整了接手前一直使用的旧方案,使用新方案替代,大大降低重点业务的风险。

上面这两部分改造,大致经过不到1周的深入思考和1周多的开发部署,目前已经接近完成,正在灰度上线中,相信可以极大的提升系统的稳定性。

那么问题来了,这个方案也是我想到的,思考和实施的时间并不算长,如果今年第一次事故后就想到这个方案,然后做了,那岂会有第二次的事故呢?当时没有想到和没有这样做的原因是什么呢?

下面是自我批评:

自大

我自己对编码有着很高的热情,对自己不认可的系统实现,通常是零容忍的。

也正是因为这样,所以当时我了解了这个系统的现有问题后,从心底里设计的改造方案,就是个推倒重建的方案,压根儿就没想别的,甚至于对现有代码的关注也很少,系统没有发现的问题,自己也不去关心了。

我想,这是个心态的问题,说的直白点,纯属自命不凡。在这种心态的驱使下,自然无法想到更好的解决方案。另外,旧系统跑了这么多年,公司这么多业务在用,自然有它的可取之处,由于我对它的排斥,也让我对它的优点视而不见,没有很好的去思考作者的思路,自身提升自然有限。

做事方法

我在公司做事,自身是有需求的,但更重要的是,我需要明确我所承担的责任,当所做的事情不能很好履行自己的责任时,要好好想想自己做的究竟是不是对的,或是说,是否合适,不合适的话,是否有更好的解决方案。

我想,这也说明自己做事情还非常的不成熟。

赌徒心理

先简单说下旧系统现存的一个最终要的问题:如果集群中的一台机器宕机,服务受损,恢复受损部分需要集群整体重启。

所以我当时一个心态是:赌我开发完成新系统替换旧系统期间,机器不会宕机。

我这些年执行过很多冒险的策略,正所谓非常时期非常手段,我自己本身对这种做事方法是认可的,但是,这次我没有把握好度。

回想之前成功的那些,我自己通常都能完全cover住所有风险,这也是因为我对系统的了解程度非常的高,所以对风险的预期,出问题的把控做的很好。

但这次,由于我的心态问题,导致我对这个系统的了解程度太低了,无法conver住这个风险。另外,一个长期的开发计划,期间会因为各种各样的原因导致服务未能按时完工,无形中风险被无限放大。

这样想来,出事应该还算老天对我的眷顾,给我个当头棒喝,否则我只会沉浸在自己的小世界中无法自拔。

对业务的反思

业务不是我负责的,所以具体情况我并不完全清楚。

我之前也负责过公司重要部门的重要业务,当时也是因为做的还算好,几乎没有出现过重大事故,所以才能有机会调到现在的部门,负责公司重要的平台型业务。

我想当时我负责的重要业务,之所以没有出现过重大事故,很重要的一个原因,就是无论我使用任何一个外部提供的服务,都不会信任它,把它作为生命线服务。如果是强需要,那么也一定会考虑好当它出现问题时的降级方案,不光纯粹从技术上去考虑,也会从产品层面去考虑这个问题。

今年的事故,也多次暴露了这个问题的重要性,如果我将来还会参与重要项目的开发,这一点是一定要坚持的。

总结

总结一下,首先自己的心态很重要,这个会决定了自己的判断;其次,成熟的做事方法,找到最重要的事情去做;最后,千万不要相信别人告诉你它的东西有多么多么的好,自己觉得自己的东西重要的话,那就要自己想好退路。

我不奢望自己能一次性改正所有问题,但求能不断反思,不断进步!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容