亚马逊公布了大规模 AWS 停机原因 | 这就尴尬了

简评:因打错字而大规模停机,搞得大厂的运维们哭天喊地,亚马逊干得好。

3 月 1日凌晨,AWS 的云存储(S3服务)服务宕机,各大网站和服务纷纷无法访问,如雅虎邮箱、Trello、Docker Registry Hub等,不只是网友,这些厂商都一脸懵逼,仿佛如世界末日(心疼了这些公司的运维了)。在国外 AWS 的使用者非常多,这场事故也给亚马逊敲响了警钟,近日,亚马逊终于揭示了长时间中断的原因,不过这个原因有点尴尬。
根据亚马逊在周四的网站上发表了一个非常冗长的解释:原因是「人为错误」。刨根问底去追究这个「人为错误」到底是什么,结论是,打错字了


一名 S3(AWS 的数据存储服务)系统团队的成员日常维护时,错误的输入了命令,他原本是想将一小部分服务器从某个 S3 子系统中移除,却不慎输入了一个不正确的指令,结果移除了一组其他的服务器,包括支持两个S3子系统的服务器。其中一个是索引子系统,管理者元数据和全区所有 S3 对象的定位信息。
更尴尬的是,服务器已经太久没有重启过了,亚马逊花费了非常多的时间来重启服务器。
回顾一下:员工的打字错误造成了一系列毁灭性的事件,使一些关键系统脱机,亚马逊重启服务器也花了大量的时间。
好的方面是:亚马逊承认这一切,认错并承诺采取了新的措施以确保这样的事情不会再出现。他们说已经添加了一些「保护机制」防止系统出事,并且重新优化了工作流程以提高恢复服务器的速度。
「这件事给我们的客户带来了很多不良影响,我们郑重道歉」,该公司写道。「我们会从此次事件中吸取教训,进一步提高我们服务器的可用性。」
原文:Much of the internet stopped working because of a typo

日报延伸阅读

欢迎关注

  • 知乎专栏「极光日报」,每天为 Makers 导读三篇优质英文文章。
  • 网易云电台「极光日报」,上下班路上为你读报。

推荐阅读更多精彩内容