以网络全流量分析为基础的AIOps演进

在数据中心层面,数据中心已从单数据中心、多数据中心主备模式,发展到了多数据中心并行工作的状态,实现了从前端网络接入直到后端核心业务系统的高可用和分钟级数据中心级别的切换,确保了业务的7X24不间断运行。而在应用架构层面,伴随着虚拟化、云计算技术的应用,私有云架构成为了主流,更进一步,如部分新兴的互联网银行不但没有物理的营业网点,更没有专用的数据中心,而采用公有云或者混合云架构部署全行的IT系统。

其次,伴随着业务的发展,IT系统在不断扩展,不仅对外应用数量不断增长,内部应用和连接的第三方服务数量也在不断扩充,同时应用间相互调用关系持续复杂化。今天,对整体应用数量以及相互间的调用关系,逻辑关系的清晰描述,已经成为了一个艰巨的工作,在运维工作中,已不能基于单一应用判断业务的可用性,还必须依赖其他应用和第三方服务的状态,才能对业务整体可用性做出判断,同时,与之相伴的如何定义应用的性能指标也成为了难题。

第三,应用的内部架构,为适应业务快速上线,应用快速开发快速部署的要求,虚拟化技术和容器微服务技术的应用规模不断扩大,与之相伴的,单一应用组件的规模却不断变小,这直接导致应用组件间的访问关系、逻辑关系更趋复杂。形成了应用组件的碎片化趋势,而对于运维工作的难度直线提高。

AIOps帮助实现人工难以实现的海量运维工作

现阶段网络性能管理的难点在于缺少业务视角,同时缺少覆盖全局和第三方的视图。目前的对策是引入流量分析,可以实现端到端的业务服务质量的实时监控和管理,关联应用特点的分析,主动预警、智能化定位的运维自动化等。据此,Gartner提出了AIOps的概念,并预测到2020年,AIOps的采用率将会达到50%。简单来说,AIOps就是希望基于已有的运维数据尤其是流量数据,并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。Gartner针对网络运维还专门提出了Netops2.0,化被动运维为主动运维,跳出网络看网络运维,成为下一代运维的核心思想。