《Google SRE》-站点可靠性工程师

最近了解到一个东西,SRE。从DevOps角度我认为值得一看,章节不多,如果时间充足,计划在7月开始5天看完。

中文版本下载地址 http://www.java1234.com/a/javabook/javabase/2017/0625/8352.html

SER介绍

SRE全称:Site Reliability Engineering,翻译过来就是:站点可靠性工程师。SRE的职责确保站定的可用,为了达到这个目的,他需要对站点涉及的系统、组件熟悉,需要关注生产运行时的状态,为此,他需要有很多工具和系统支撑其完成上述工作,比如自动化发布系统,监控系统,日志系统,服务器资源分配和编排等,这些工具需要他们自己完成开发和维护。

SRE是一个综合素质很高的全能手,需要懂服务器基础架构、操作系统、网络、中间件容器、常用编程语言、全局的架构意识、非常强的问题分析能力、极高的抗压能力(以便沉着高效地排障),他们还需要懂性能调优理论...

SRE的工作是Develop+Operate的结合,SRE是DevOps的实践者,他们的工作内容和职责和传统运维工程师差不多:发布、部署、监控、排障,目标一致。但是SRE的手段更加自动化,更高效,这种高效来源于自动化工具、监控工具的支撑,更因为其作为这些工具的开发者,不断优化和调整,使整个工具箱使起来更加得心应手,这也是DevOps的魅力所在。

推荐阅读更多精彩内容