怎样实现AIOps智能化运维?

作为一个新生领域的智能运维平台还处于发展的初期,发现并收集有价值的数据是当务之急和首要问题。而网络流量作为整个IT系统的基础,所有的运维操作也都以网络流量为手段实现,因此网络全流量数据是最为完整的数据源,对其进行采集和深度分析,可以作为智能运维平台的基础。同时,结合其他数据源,也是构建智能运维平台的最佳路径。

仅在IT系统中关键节点或者应用前段部署网络流量采集点是无法满足全系统监控分析的要求的,应在应用交易路径的所有环节都应当部署流量采集点,并加以统一视图的分析,才能清晰准确的实现应用和整个系统的运维监控需求。

另一方面,网络流量采集探针不能仅针对网络设备等硬件,由于云计算、SDN技术的大规模应用,流量采集探针也必须支持虚拟化环境、云和SDN环境,不仅能采集物理设备间的流量,还必须能够在采集虚拟环境内部的流量,特别是由于SDN环境的特点限制,网络全流量采集分析是SDN环境下最佳故障排查手段。

在数据中心层面,新一代的智能运维平台必须能够实现应用的全局监控,快速准确的展现应用和业务运行状态,同时对于应用路径的各个环节也必须实现全路径监控,当任意一点由于任何原因导致的异常现象,实现快速、准确的展现和警报,更进一步,新一代的智能运维平台还应当具有深度的数据挖掘能力,可以对任何异常现象实现数据包的深度挖掘和分析,还原异常现象并对根因做出最准确的还原和分析。

在数值监控方面,新一代的智能运维平台不能仅面向IT运维,还应当具备业务运行的支撑能力,能够实时反映业务的运行状态,对于交易成功率、交易时延、交易类别等等业务运行状态提供快速准确的监控报警能力,特别是在业务促销、大业务量突发等场景下具备实时监控相应能力。相应的,新一代的智能运维平台在应用层面还必须具备交易路径的监控分析能力,这种能力不同于针对IT环境的监控,其应当是对交易路径中包括关联业务和第三方等各个环节的监控分析能力。而在警报分析能力层面,新一代的智能运维平台不能采用传统的阀值警报模式,基线警报模式是其基本的要求之一。只有采用性能基线监控和报警模式才能准确反映一个时间段内业务和应用的变化趋势,并对未来的业务和应用发展态势做出预测。