随着数字化与云化加速,金融单位运维体系面临实时性、精准性和主动性的多重挑战。传统被动式监控难以应对复杂交易场景与动态资源环境,亟需通过智能化手段实现故障预判与精准定位。
海通证券基于科来网络流量分析技术与智能算法为核心引擎,实现告警降噪、根因定位与资源优化,有效破解了混合架构下的运维复杂度难题。本文为海通证券智能化浪潮下的运维转型实践分享,全文已在《金融电子化》公众号首发。
以下为正文。
《从观测到预警:智能化浪潮下的网络流量运维转型实践》
文/海通证券股份有限公司数据中心副总经理 王东
海通证券股份有限公司数据中心 李宏涛 邵佳罗
海通证券运维转型的核心目标
1.以网络流量为基础的性能观测体系。
现阶段,网络流量分析技术已深度融入到公司的整体运维体系中,通过NPM分析探针对网络流量指标进行实时、精准剖析,运维团队能够动态监控网络、应用服务的服务质量,快速识别性能瓶颈;同时,通过历史流量数据分析优化资源配置,精准规划带宽容量,降低运营成本。网络流量分析数据作为当前运维的基础资源,在性能监控及运维转型中扮演着不可或缺的角色。通过实时监测流量特征和指标,数据中心可以构建全面、动态的可视化运维观测体系,实现多层次的运维保障。
2.重视事前监控学习和预警能力。
传统的监控体系往往是在故障发生后才被动发现,在技术飞速更迭的当下显得有些滞后,运维视角应从事后被动发现向事前主动发现转变。海通证券基于网络赋能应用监控的全新视角,通过建立网络流量智能基线监控体系,用机器学习技术对流经各网络节点的应用通信性能指标进行实时监测和分析。通过智能算法对指标走势预测,系统能够提前发现潜在的问题,如网络流量突增、服务性能下降、应用程序连接状态异常等,及时预警。这样,运维人员可以在故障发生前,基于流量对网络设备、线路、系统性能和应用质量的智能化预警,有利于问题的快速定位和及时处理,避免业务中断和用户体验受损。
3.智能算法驱动多维度协同联动。
智能算法的应用是实现智能化运维的关键,海通证券通过对网络拓扑、流量、通信线路及业务系统等多维度数据的治理,利用智能算法将这些网络流量数据进行关联分析,实现统一评判和预警。当网络异常时,结合业务状态和基础架构的性能指标,准确判断是由于业务突发增长还是网络故障导致的异常。
网络运维智能化转型
1.网络流量分析:运维体系的核心枢纽。在海通证券数据中心的运维架构中,网络流量分析处于关键的核心地位,其作用类似于人体神经系统的中枢神经,在纵向与横向维度上紧密串联起各层级关键运维要素和指标,构建起全方位、多层次的运维监控保障体系。
从纵向深入底层维度,网络流量分析聚焦流量链接状态、协议状态等核心指标,实时监测流量速率、数据包时延及TCP连接状态,精准洞察基础设施服务质量;纵向向上拓展至业务维度,通过解析证券业务应用层协议,实时监测交易笔数、响应时间、响应率及流量分布变化,避免系统卡顿导致的经济损失,提升客户体验。
在横向联动层面,海通证券数据中心融合传统物理与云环境,通过统一采集与关联分析云上云下流量指标,实现网络流量一体化运维管理。云主机内部交互及云平台与数据中心的双向传输均纳入统一监控。在云资源动态扩展中,通过对比新增实例前后的流量走向、峰值变化,并结合传统环境流量负载,运维人员可运用容量规划模型等工具,全面评估整体架构的性能瓶颈。
2.动态基线:系统“ 健康态” 的精准度量。网络流量指标的基线监控在海通证券数据中心运维管理中具有不可或缺的全局视角,通过对网络流量指标及动态变化进行全天候、全方位的健康巡检和实时监控,敏锐捕捉细微异常与潜在风险,保障网络稳定运行。
传统的固定阈值告警方式存在局限性,依赖于运维人员的手动设定,缺乏智能化的动态调整机制。由于不同业务时段和网络区域的流量特性差异,固定阈值难以适配多样化场景,容易引发误报或漏报。另一方面,固定告警阈值无法依据证券业务特性及不同应用系统的动态变化规律进行灵活调整,影响预警的及时性和准确性。
为应对这些挑战,海通证券引入动态基线技术,对网络长期历史流量数据的深度挖掘与智能分析构建而成,充分考量了网络流量的周期性、趋势性以及交易/非交易时段等复杂因素。通过时间序列分析、聚类分析等机器学习算法,对历史流量数据进行分时段、分业务类型、分网络路径的精细化梳理,精准捕捉网络流量在不同场景下的正常波动范围,并以此作为实时判断流量是否异常的动态基准。当实际流量超出此范围时,及时触发告警,实现精准的异常检测。
智能算法赋能运维管理升级
1.异常指标的监控机制。
以对前M天的样本数据,以及同时段N分钟的样本数据作为基础依据,通过综合运用多种数据探索性分析算法,对数据展开深入分析,进而精准地识别出系统在正常运行状态下所呈现的特征和各项指标。在此基础上,建立与之相匹配的智能算法基线模型。该智能算法为海通证券数据中心的运维工作带来了全新的视角,尤其在针对单一链路或应用的运行状况进行监控时发挥了至关重要的作用,为及时发现异常情况、保障系统稳定运行提供了强有力的支持。
通过建立不同维度的KPI关键指标(网络负载类、网络性能类、应用性能类等)丰富指标体系,智能算法对单一链路或应用进行全方位的 “健康评估”。以网络性能类指标为例,通过实时采集链路两端数据包的收发时间戳,精确计算延迟数值,并结合历史数据运用动态阈值模型构建动态延迟基线。若实时延迟超出基线一定范围,算法立即启动关联分析流程,排查其他连接类指标异常情况,进而判断是网络链路问题还是服务器侧问题,为运维人员提供了精准的故障定位信息。

图 异常指标监控流程
2.智能告警,主动降噪。
借助智能算法,流量数据得以深度挖掘与整合关联。从指标维度切入,系统能够实时监测网络流量的时延、重传率、无响应率等关键指标,进行精细化分析。一旦针对同一监控对象产生多个单指标告警,算法便迅速介入,通过关联分析,对这些告警执行聚合、降噪以及升级等操作,最终凝练为一条事件性告警 ,极大提升了告警的有效性与可读性。
从监控对象维度切入,系统凭借先进的识别技术,能够精准区分不同链路、应用及业务系统所产生的流量指标。在此基础上,运用大数据分析手段,为每个监控对象量身定制专属的流量指标画像,全面且细致地呈现监控对象的流量特征。
当不同监控对象触发告警时,智能算法立即启动深度分析。通过复杂的计算与逻辑判断,对这些告警进行聚合处理,将分散的信息整合;开展降噪操作,过滤掉干扰信息 ;实施升级评估,合理提升告警级别。最终生成一条具有明确故障指向性的事件告警。从监控对象层面出发,能够区分不同链路、应用、业务系统所产生的流量指标,并为每个监控对象构建专属的流量指标画像,将不同监控对象的告警通过算法分析进而对告警进行聚合、降噪、升级等操作生成一条具有故障指向性的事件告警。从场景角度来看,依据数据中心网络的不同区域、业务的不同时段、不同操作类型对流量场景进行细分,并针对各场景制定特定的运维策略与告警知识库。
3. “大通道、小水管”故障定位模型。
在海通证券复杂的数据中心网络环境中,众多应用从属于同一链路。智能算法巧妙利用链路与应用间的从属关系,精准掌握应用运行状况。
当链路性能波动时,算法依据预先学习的从属关系模型,迅速定位该链路下的所有从属应用。若链路带宽利用率急剧上升或延迟显著增大,算法立即全面排查从属应用。通过分析流量占比变化、数据包传输特征以及业务响应时间等多维度数据,快速判断受影响应用并定位问题根源。同时,算法充分考虑链路与应用之间的双向影响。一方面,链路的拥塞、故障可能导致应用性能下降,而应用的异常流量或内部错误也可能影响链路的稳定性。例如,某应用因代码漏洞导致其频繁发起无效请求,进而使链路流量异常增加并引发拥塞。智能算法能够敏锐捕捉到这种连锁反应,在发现链路流量异常时,不仅排查链路自身问题,还同步检查所有从属应用,通过关联分析找出问题的 “始作俑者”,为运维人员提供全面、精准的故障排查路径,大幅缩短故障修复时间,确保整个业务链路的稳定运行。
4.高效运维“双平面”。
智能算法在海通证券运维管理中的一大显著创新点,是实现了网管监控平台与流量监控平台的数据深度融合,为海量告警信息的优化处理提供了有力支撑。传统运维模式下,两个平台各自独立运行,告警信息分散,运维人员往往深陷“告警沼泽”,难以快速甄别出真正有价值的信息。智能算法的引入打破了这一困境,通过对两个平台数据的实时采集、标准化处理与智能关联分析,将设备接口的运行状态数据与网络流量数据紧密结合。例如,当交换机的端口出现频繁 UP/DOWN 切换告警同时流量速率骤降、重传数据包增多时,算法基于预先构建的故障诊断模型,能够迅速判断这并非孤立事件,而是可能存在端口硬件故障或对端设备兼容性问题等深层次原因。通过聚合与关联分析,提升告警的精准性与可读性,帮助运维聚焦关键问题,提高效率,保障网络稳定运行。
展望
随着技术与业务需求的演进,海通证券数据中心运维管理将在网络流量分析与智能算法应用的基础上,进一步探索创新运维模式与技术融合路径。未来有望引入深度学习等先进的人工智能技术,提升流量异常检测与预测能力;加强行业技术交流与合作,借鉴前沿运维经验优化运维流程;深化数据融合,整合多维度的数据资源,为运维决策提供更全面、精准的支持,确保数据中心在日益复杂的市场环境与技术挑战下高效、稳定、安全地运行,为海通证券信息系统的连续性运行和业务发展提供坚实的技术支撑。