云计算时代的 IT 运维转型升级之路(上)

96
张刚_b25b
1.2 2017.10.17 22:31* 字数 8229

姓名:张刚 学号:17021210979

【嵌牛导读】:云计算时代,IT运维迎来转型升级。传统 IT 运维问题日显, IT 运维转型是必然趋势;云计算时代的 IT 运维转型升级向云运维方向发展,包含两方面内涵:运维技术的云化和对云的运维;市场对高效运维的需求和云计算、大数据等技术手段是云运维得以兴起的根本原因。

【嵌牛导读】:IT运维转型之路何去何从

【嵌牛鼻子】:智能化     自动化    可视化

        智能化、自动化、可视化是运维发展的三大趋向; DOCKER 技术或将给运维带来大变革;在 IT 运维转型大势驱动下,BSM(Business ServiceManagement, 业务服务管理)、 APM(应用性能管理) 将顺势崛起; 基于大数据分析是 IT运维向高级发展的重要路径。

IT运维转型升级机会大,细分领域将涌现龙头企业

1)从市场看, 云计算蓬勃发展,市场规模增速快, 云计算在中国的落地和繁荣将成为云运维持续发展的核心动力; 从政策层面看,国家政策鼓励发展“互联网+”、云计算、大数据、物联网,提高各行业信息化建设水平,促进运维需求增长,推动传统运维向云运维转型,同时国家建设绿色数据中心的要求将推进智能化运维的发展,为运维转型升级提供动力。

2)细分领域专业化程度尚低, 产业与资本仍在酝酿。

3)国外企业如 IBM、 BWC、 HP 等企业在云运维领域的产品和布局为国内运维企业

发展提供了借鉴。

4)国内企业如华胜天成、 广通软件、 北塔软件、银信科技和新华三等纷纷推出云运维相关产品。

三重逻辑把握 IT 运维转型升级带来的机遇

1)从细分领域看,需抓好 IT 运维新领域应用大机会,我们重点看好APM、 BSM 等新领域。

2)从运维技术看,把握新技术运用方可引领未来,我们优选新兴的 Docker 技术、 基于大数据的运维管理、 SaaS 化运维等技术这几大技术方向。

3)综合地来看,在云运维领域,在技术有领先优势、在细分领域深耕细作、对客户资源有较强把控力的企业,能够更好地服务于客户,在同质化竞争中打出差异化路线、并且以高的用户黏性和高的用户续费率源源不断地为公司创造价值并且产生现金流。因此,这部分拥有综合优势的企业将更有希望在IT 运维转型升级领域中脱颖而出。

一、云计算时代, IT 运维迎来转型升级

1.1传统 IT 运维问题日显, IT 运维转型是必然趋势

IT 运维是信息化时代企业不可或缺的一环。 IT 运维管理,是指单位 IT 部门采用相关的方法、手段技术、制度、流程和文档等,对 IT运行环境(如软硬件环境、网络环境等)、 IT 业务系统和 IT 运维人员进行的综合管理。配备专职 IT 运维人员的企业会自行进行 IT运维管理;而其余企业选择将 IT 部门的职能全部或部分外包给专业的第三方 IT 外包公司管理,集中精力发展自身的核心业务。

自信息化普及以来, IT 运维对企业的发展而言不可或缺,因其能保障企业“网络不断、系统不瘫、数据不丢”,在保证各类 IT 基础设施稳定运行的基础上对关键业务提供良好支撑,使企业的核心业务能够实现不间断、高质量的运行,最终保证并提升公司的运营效益。

传统 IT 运维问题日显, 究其根本是管理问题。 传统 IT 运维在发展过程中显现出了各个方面的问题:

其一,运维服务人员工作忙碌却不受重视,传统的“救火式”运维大大增加了运维人员的工作强度和工作压力,难以量化的工作得不到业务部门的认可。

其二, IT 系统复杂,维护难度高,系统宕机风险系数大。

其三,技术人员难培养,流动性大,有经验的技术人员因为不受重视而辞职,造成运维质量和客户满意度的波动。

其四,服务商难管理,技术水平参差不齐,服务不及时,有问题不能及时解决。

IT 运维服务的所有问题的根源都不是技术问题,而是管理问题,可归结为四方面:

IT 运维服务管理方式缺乏创新;

IT 运维服务管理不规范;

工作分工设计不合理,忽视梯队建设;

IT 运维服务供应商管理不到位。

云计算、大数据时代下,传统 IT 运维服务出现瓶颈, IT 运维转型是必然趋势。

云计算正从概念逐步走向落地,在各个行业都出现了成熟的应用,但云计算与虚拟化在提升资源利用率的同时,也加大了 IT 复杂度。如何简化 IT运维管理,实现 IT 运维成本上的降低和效率上的提升,就成为了一个所有企业 IT 部门面临的难题。传统 IT 运维遭遇两大瓶颈。

1)随着传统企业信息化的深入,企业越来越多的业务应用依赖于 IT 来驱动,这意味着 IT 需求变得越来越强,服务器等数量爆增,管理起来日益繁杂, IT 部门如何快速响应业务需求成为一大难点;

2)云计算、虚拟化时代的开启,在大型云计算数据中心面前,需要灵活自动地去管理虚拟的计算节点、存储和网络等资源,原来单一、物理的设备变为了动态、虚拟的资源。若传统

IT 运维模式不进行升级转型,结果会是死路一条。综上,云计算、大数据时代下, IT 运维转型是必然趋势。

1.2 IT 运维转型升级剖析:运维技术云化 vs 对云的运维

云计算时代的 IT 运维转型升级向云运维方向发展,包含两方面内涵: 运维技术的云化和对云的运维。 目前业内仍未给云运维确定一个统一的概念,综合来看,云运维有两方面的含义。

其一,与“云服务”、“云产品”概念类似,云运维指的是通过云计算相关技术进行 IT 运维操作,是传统 IT运维转型优化的趋势。作为云服务的一个新兴的分支,云运维与云存储产品、云主机产品类似,由各大云服务提供商通过自主研发推出相关的解决方案和产品。代表性的产品有北塔软件的“代维宝”、华胜天成的“云悦服务”等。

其二,云运维指以云平台作为运维对象,这是从运维的对象划分形成的概念。代表性的产品有新华三集团推出的云托管运维服务,该服务通过专业运维团队,提供对云平台的远程运维。综合来看,以云技术进行运维是云运维的主流概念,以云平台作为运维对象视为其内涵的一个补充。

云运维是新型 IT 运维模式, 与传统 IT 运维存在多方面的差异。 传统 IT 运维存在人员成本偏高、自动化程度低、无法管理庞大资源等缺陷,基于云计算 IT 运维服务实现了三大转变。

首先它变被动为主动,云运维以各种监控、告警、日志、报告服务工具为依托,通过全面的网络式监控及早发现故障隐患,从而可以建立起主动式 IT 运维。

其次,它变复杂为简单, 增一个分支机构时,只需要在网络上增加安装一个网管机,就可以监控管理整个 IT 系统,整个过程简单高效,而不需要部署复杂的 IT 运维软件。

最后,它为用户提供了一种快速部署和应用运维系统的方法,彻底改变了传统的高成本运维服务模式。云运维把数据乃至应用程序全部集中到云端,这意味着大量在本地的运维工作转移到云服务器端,运维的总体工作量大大减少,运维成本也就大幅降低。

此外,云运维在服务理念、服务形式、工作模式等方面也体现出与传统 IT 运维极大的差异。由此可见,云运维是传统 IT 运维在新时代下各方面优化转型的趋势。

云运维本质是可控+可视的一种 IT 服务。 云运维首先是运维的一种,因而必须满足运维的核心功能“可控”。“可控”包括稳定性可控、性能可控、安全可控、交付可控、效率可控等方面,满足了可控,运维才能在保证各类 IT 基础设施、软硬件设备稳定运行的基础上对关键业务提供良好支撑,使企业的核心业务能够实现不间断、高质量的运行,最终保证并提升公司的运营效益。

其次,云运维作为 IT 运维的一种优化和变革,有“可视”的内在要求。 IT 运维归根结底是一种服务,随着发展越来越凸显其服务的特性,

高效、透明化、 用户友好的服务成为运维的核心价值, 而显然“可视化” 可以最大化这种服务属性。 综上, 云运维本质是可控+可视的一种 IT服务。

云运维商业模式:按需租用、免费+增值服务。 由于云运维是一个较新的概念,业界现有的云服务提供商或 IT 解决方案厂商仍未非常系统、清晰地区分传统运维产品和云运维产品的边界,云运维产品未实现规模化销售。云运维产品的功能领域主要是设备监控管理、业务连续性/灾难恢复规划、数据中心整合及虚拟化、信息管理、信息安全等方面。云运维产品的销售模式主要是 SaaS 化产品的销售,即按需交付服务。

一般有免费试用的时间或资源量,超过免费阶段,客户就需要按需租用产品。除此之外,厂商会推出增值服务、定制化服务等,其交付形式往往是按项目付费。

1.3市场需求、技术进步两大维度看云运维兴起原因

云运维兴起原因可以从市场需求、技术进步两大维度解读。

首先,随着互联网各类业务规模的扩大,数据中心作为互联网业务的基础设施,其需求发生爆发式增长,重点需求对象为银行、电信、政府。伴随数据中心增长的是对高效运维的需求,因而市场需求成为云运维兴起的推动力之一。

其二,云计算大数据时代背景下,企业核心业务向云端迁移带来整个 IT 架构行业变化。技术进步倒逼 IT 运维升级,云运维应运而生。

中国数据中心市场规模持续扩大,年复合增长率近 40%,巨大的市场需求刺激云运维兴起。2015 年,技术创新驱动带动数据存储规模、计算能力以及网络流量的大幅增加;全球尤其是亚太地区云计算拉动的新一代基础设施建设进入加速期。受供需两端快速增长的影响, 2015年中国 IDC 市场延续了高速增长态势,市场总规模为 518.6 亿元人民币,五年内年复合增长率为38.38%。未来三年 IDC 市场仍将保持高增速,预计 2018 年中国 IDC 市场规模将达 1400 亿元。数据中心作为日益重要的 IT基础设施, 对于运维的需求非常强劲。此外,银行、电信、政府等重点行业在新时代下对 IT基础设施的安全性和稳定性要求不断提高。种种市场因素刺激云运维的产生和发展。

技术进步引起传统 IT 架构重要转型,云运维应运而生。基于用户规模不可预见,再加上目前互联网、物联网、大数据等新的趋势的快速发展,未来 IT架构的压力和挑战是非常大的。而云计算所具备的自动缩放、弹性、全网负载均衡等这些特性,正好缓解了传统 IT所面临的这些压力,于是越来越多的企业将核心业务迁移到云端,解决传统 IT 架构高成本的巨大缺陷。

整个 IT 架构变化,倒逼 IT 运维升级,新型的 IT 运维需要能灵活自动地管理虚拟的计算节点、存储和网络等资源,能对云基础架构、软件服务等进行有效地运行维护。这便是云运维诞生的强大推动力。

二、产品和技术趋势: IT 运维产业特征之深度探析
2.1 智能化、自动化、可视化是运维发展的三大趋向

IT 运维发展趋势一:智能化。

云计算的迅猛发展给 IT 基础架构提供了更多的选择,云架构和传统架构最终将走向融合。这种融合对运维服务提出了更高的要求,运维服务需要从单纯的人工模式走向自动化、智能化,从解放人的手和脚到部分替代人的脑力工作。

这也是数据中心从小规模走向大规模的必然要求。随着 IT 系统越来越复杂和 IT 设备的多样化,传统 IT 运维“救火式”的被动故障处理能力已经严重影响了企业业务的发展,只有智能化的运维方式才能维持企业 IT 环境的安全、稳定。智能化运维平台的主要功能是通过预测分析模型,自主定位问题、发现问题,综合分析之后上报信息,形成高度智能化的运维体系。

IT 运维发展趋势二: 自动化。

为了将有限的 IT 资源和人力投入到企业核心应用的创新研发之中,以快速响应业务用户需求,并满足云计算时代的业务变革需求,实现 IT运维自动化已是必不可少的步骤。自动化技术不但能帮助 IT人员从固定、重复、烦琐的日常维护事务中解放出来,还可以使故障处理流程变得规范、迅速、高效,为企业的业务变革提供良好的技术手段和基础。

目前,业界已有很多单一化的 IT 自动化产品,而在复杂的云环境下仍无法满足IT 运维的各类需求。所以 IT 运维未来将向支持多样业务的自动化方向发展。


传统的数据中心向云端演进,不论是从基础环境监控,还是业务优化管理上来说, IT运维管理都将面临着一系列新的挑战。尤其是在以业务管理为核心的企业运营环境中,如何让 IT运维适应虚拟化的灵活性、让业务平台运行状况清晰可见,这些问题都集中反映出来 IT 服务保障的新需求:可视化。

运维可视化可以做到屏蔽运维提供的服务背后的所有实现细节,而向用户提供一种高效、一致性、透明化、用户友好的服务。运维的自动化最终要实现可视化,复杂的运维工作流必须通过可视化来表达,可视化后的自动化才能让所有人理解一致、执行一致、结果一致。

图 12: IDC 运维管理平台的可视化界面

2.2 DOCKER 技术或将带来 IT 运维行业大变革

Docker 是一种 Linux 容器工具集,它是为“构建( build)、交付( ship)和运行( run)”分布式应用而设计的。

Docker 的初衷是将各种应用程序和它们所依赖的运行环境打包成标准的 container/image,进而发布到不同的平台上运行。

Docker 是一个开源的应用容器引擎,它由管理轻量级容器的引擎、客户端和 AUFS文件系统三部分组成。它可以让开发者打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux机器上,同时可实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。 Docker容器是从镜像开始的,镜像可以由本地创建的、本地缓存,也可以从公有注册库中下载。 Docker 初级版本发布时间为 2013 年 3月,自发布之日起, Docker 就因其开源性、连接性等优点而广受欢迎。

Docker 支持在非常低的额外开销的情况下,打造一致性的运行环境,这或将为运维带来大变革。

运维自动化的关键在于标准化,代码从开发者的机器到最终在生产环境上的部署,需要流过很多的中间环境,而每一个中间环境都有自己微小的差别。

Docker

解决了这一自动化运维最困难的地方,它帮助开发者实现环境的标准化,即目录、路径、配置文件、储存用户名密码的方式、访问权限、域名等种种细节的一致和差异处理的标准化。

目前来看,由于 Docker的部署非常灵活,往往是“碎片化”的,这加大了对其自身的运维难度。随着容器技术的进一步发展, Docker 可能为运维带来巨大的革命。

2.3 IT 运维转型升级大势驱动, BSM、 APM 将顺势崛起

BSM(Business Service Management)即业务服务管理,是 IT 与业务管理手段的一种整合与互补,它以 ITIL 为理论基础,实现 IT 管理与业务服务的融合, 帮助企业解决云时代下的IT 运维难题, 是 IT 运维的重要发展方向。

BSM 符合云计算的以业务为核心、 屏蔽底层复杂性的观念, BSM 向客户提供面向业务的统一的 IT资源管理平台,从业务的入手,统一管理网络、服务器、存储、应用资源,通过内置的业务健康评价机制,动态地展示企业业务的整体运行情况,让运维人员专注业务本身的情况,通过长期趋势监控和实时报告,BSM 可以帮助用户提前感知业务故障、快速定位业务故障根源, BSM 甚至可以利用搜集的数据提供业务投资量化分析建议,是 IT部门做好业务运维的绝佳工具。

BSM 聚焦于业务逻辑,帮助企业解决云计算环境中的 IT 运维难题,是云运维重要的细分领域之一。根据智妍数据中心的整理, 2014 年我国BSM市场规模达到 99 亿元,较 2013 年增长 28.57%,增速较快。目前, BMC、HP、神州泰岳、华胜天成旗下摩卡软件、网利友联、新华三都是 BSM 云运维市场的竞争者,龙头企业还在酝酿之中。我们认为, BSM在未来五到十年仍会保持高速增长,逐渐渗透进各个行业,最终实现广泛应用。


IT 运维正从 ITSM( IT 服务管理)向 BSM(业务服务管理)演变。 IT运维管理的发展经历了网络管理、系统管理和服务管理三个阶段。最初 IT 运维管理主要集中在对设备的监控、保证网络连通性上; 20 世纪 80 至90 年代,随着信息量的增加和管理决策的需要, IT 管理重点向系统管理转移,关注系统可用性;近年来, IT 运维进入到 IT 服务管理阶段,ITSM 结合了高质量服务不可缺少的流程、人员和技术三大要素,面向过程、以客户为中心,是企业 IT 管理人员管理企业 IT 系统的有效实践。2010 年,中国 ITSM 的市场规模约为 50 亿元,其中 ITSM软件市场占比为40%-50%,其次是相关的软件实施服务、咨询服务市场。进入 BSM 阶段, IT运维开始强调从业务目标角度出发来优化 IT 服务力求做到IT 与业务的融合,以确保 IT 能够支持业务目标。

图 16: IT 运维管理的发展 图 17:传统运维管理模式演变


APM(应用性能管理)是 IT 技术的一个重要分支,通过帮助 IT运维管理人员主动发现并规避系统故障,确保业务关键型应用的性能、可用性及价值,成为企业提升商业竞争力的关键组成部分。 与传统 ITOM解决方案相比, APM 的核心价值体现在面向移动和云端 IT 架构,为企业提供全技术栈的性能监控和管理服务,优秀的 APM包括五大功能维度:最终用户体验监控、应用拓扑发现与可视化、用户自定义事务处理剖析、应用组件深入监控以及 IT 运行分析。

APM天生对数据分析的需求使得它有机会把性能数据与企业的经营数据整合起来,把管理范围逐渐从企业的核心 IT部门延伸到业务部门,从而让企业真正通过 IT 来指导商务决策。 Gartner 数据显示, APM 软件全球市场的在过去几年加速成长,截至2014 年已实现 26 亿美元营收,较2013 年增长了 15.8%,远高于 ITOM 市场增速。我国 APM 也已经进入十亿级市场。

APM 是目前 SaaS 云运维应用最为活跃的领域。 SaaS APM 彻底改变了传统 APM 昂贵、复杂、耗时的 IT管理部署方式,以灵活的 SaaS 服务交付模式,吸引了大量运维软件厂商布局,并为它们赢得了众多用户。在 2015年 12月 Gartner公布的APM魔力象限中,New Relic、AppDynamics和 Compuware(现已独立为 Dynatrace)等新兴企业继续保持其在APM 领域的领先地位;迫于新兴 APM 服务商的竞争压力,传统 APM 服务商如 IBM、 HP、 Dell等企业也在不断加快新品研发,并向基于云端的服务交付模式的迁移,实现了传统 IT 运维向云运维的转型升级。

图 18: 2015 年全球 APM 魔力象限


应用性能管理( APM) 的发展分为三阶段, 贯穿 IT 运维管理( ITOM) 的发展历程。 应用性能管理的发展历程按照时间可以分为三个阶段。

第一阶段以网络监控基础设施为主,这个阶段应用性能管理主要以各类网络管理系统( NMS)和各种系统监控工具为代表。

第二阶段以监控各种基础组件为主,随着互联网的快速发展,为了降低应用开发难度,各种基础组件(如数据库、中间件等)开始大量涌现,所以这个时期应用性能管理主要是监控和管理各种基础组件的性能。

第三阶段以监控应用本身的性能为主,随着移动互联网、云计算的兴起,企业的业务与商业需求不断增加, IT运维管理的复杂度开始出现爆炸性的增长,应用性能管理的重点也开始聚焦于应用本身的性能与管理上。广义而言,应用性能管理是 IT运维管理的细分之一,它的发展贯穿了 IT 运维管理的发展历程。

图 19:应用性能管理的发展阶段 图 20:应用性能管理未来的发展趋势


在 IT 运维转型的大趋势下, APM 市场有望进一步打开。随着 IT 运维管理的复杂度的增长,传统 IT

运维暴露出三大弊端:一是人员成本偏高,难于管理;二是自动化程度低,被动防护影响业务运维效率;三是无法管理庞大资源。云运维作为 IT运维转型方向可以使运维智能化、自动化、可视化,满足日益多样化的 IT 管理需求。

Gartner 在 2014 年 APM 市场占有率分析报告中指出,全球 APM 市场在 2014年继续加快扩张步伐,保持高速增长的态势。 2014 年全球 APM 市场规模已经达到 26 亿美元,较 2013 年增长了 15.80%,

APM 已经成为 ITOM 细分市场中增长最快的一个分支。而目前 APM 的国内市场成熟度与国际市场还有很大差距,国内的APM市场刚刚开始发展,国内从事 APM 业务的厂商尚处于刚刚起步的状态。结合 ITOM 在转型云运维过程中的快速发展,我们预计 APM国内市场有望进一步打开。

APM 热度提升,未来发展态势良好。 近几年,随着移动设备的普及,大众的生活开始依赖于移动应用,用户对于移动应用的性能体验更为苛刻,这使APM 热度提升。在云计算、移动互联网、大数据快速发展的背景下,企业的 IT 环境在持续地走向复杂化,市场对应用性能管理的需求会进一步增加。

面对数据数量、数据种类、数据速率以及数据复杂性的不断增加,企业需要一种全新的数据分析方法,而通过将 APM软件和大数据环境集成,企业能够有效消除性能低下、可用性不足及可扩展性不佳所带来的风险和成本,因而未来应用性能管理将成为大数据解决方案的不可或缺的要素。随着应用性能管理触角的不断延伸,性能调优的范围会深入到整个IT 领域的方方面面,监控数据将爆炸性增长,用户的地域和层次也将呈现多样化。在此背景下,传统的应用性能管理模式已经不能满足要求,基于公有云SaaS 交付的应用性能管理将成为主流。

2.4 基于大数据分析是 IT 运维向高级发展的重要路径

大数据时代下,未来的 IT 运维管理被赋予了更多的信息挖掘和数据分析的重任。 当前我们正从 IT 时代走向 DT 时代,随着企业 IT架构的不断扩展,服务器、存储设备等日益增多,网络也变得日益复杂,从而给运维工作带来了巨大的挑战。对于体量超大的数据中心,原有的运维思路和运维方法已难以满足其海量数据计算、存储、应用和安全等多种职能的需求。

一方面是成千上万台 IT设备以及各种软件系统;另一方面是繁多复杂的业务应用,数据中心需要借助先进的自动化运维管理模式来实现大体量系统管理。如果数据未经过处理,这就对运维没有任何意义和价值。因此,大数据分析应用将成为IT 运维向高级进阶发展的重要路径,具备实时采集和海量分析能力的 IT 运维管理产品将会成为数据分析应用的新增长点。


基于大数据分析的运维是运维发展的智能化趋势。

基于大数据分析的运维能够通过分析运维数据提前发现潜在问题及风险,将传统被动响应式的风险处理方式变为主动防御,从而规避应用性能问题给企业带来的损失。此类运维平台首先取得业务交易、应用进程、数据库、服务器等产生的海量历史数据,核心步骤是通过系统运行行为分析预测模型,对不同指标的历史数据进行挖掘分析,从而应用于故障定位、隐患排查、资源配置策略预测等运维活动。大数据分析预测是IT 运维的高级阶段,是走向运维智能化的强大手段。

图 21: 基于大数据分析技术的智能化 IT 运维

日记本