实践丨中信银行智能专线运维建设

十四五规划的出台,进一步加快了我国数字化建设发展,以金融为代表的各大重点行业数字业务更为丰富多样,企业专线承载的大量重要业务不断增长,所面对的带宽增速、高效互联、安全传输等考验也不断升级。


实际环境中,因为缺乏有效的可观测性工具,专线运维经常遇到业务关系复杂、专线质量不透明、资产底账不清、权责不明、业务变化了解滞后等共性问题。全流量技术被公认是对于现代运维体系有效且必要的补充,中信银行利用全流量系统进一步优化了现有专线运维,有效提升了专线监控的可视化与智能化水平,在关键业务安全体系、业务故障处置等方面实现了明显增效。


本文为中信银行智能专线运维建设实践分享。

完整全文已刊发于《金融电子化》

文丨中信银行 金国建 杜佳星


前言  


数字科技与IT设施是金融业转型重要的技术支撑,作为面向监管链、业务链双层架构的行业关键基础设施,专线承载企业关键业务,在整体银行运维体系中意义重大。


银行大量专线网络覆盖全国各省市,包括骨干网专线百余条,外联专线上千条,运维工作庞大。为提升效率,专线运维团队采用了CMDB、SNMP、网管工具等多种管理手段对现有运维体系,取得了一定成效。随着银行业务在新阶段更为多样,专线安全与稳定性难度加剧,对运维与监控的精细程度有了更高要求。科技部门基于目前专线关键业务运维情况设计了针对性的改善方案。


全流量技术被普遍认为是对现代运维监控体系必要且有效的补充手段,中信银行针对当前专线管理,通过深入、细粒的专线流量分析,进一步强化了对于业务运行情况的掌握,减少了潜在运维与安全隐患,并在专线整体规划上做到了全面量化、有据可依。本文将从智能主动式监控、专线容量规划、业务识别与异常定位等四个方面分享中信银行在专线运维上的实践与思考。


智能化专线运维实践  


专线的可观测性直接关系到运维决策与故障诊断的效率。数据中心专线流量监控具有重要意义,其中对包括数据带宽、吞吐量、丢包率、延迟等在内的指标进行监测,可以有效确认数据中心和其他网络设备之间通信是否正常,从而及时发现和解决专线故障问题。

 

主动式精细化业务监控

 

传统监测方式仅能了解专线链路是否异常,或者获取阶段性指标情况,无法实现全量采集存储、分析、回溯,面对偶发性、无明显规律的故障存在局限性。全流量系统除了做到“看得见、看得准、抓得住”,还兼具多维度指标监控与智能AI引擎的重要能力,能通过更灵活、清晰的自定义监控视图,提供可视化的专线运行图像与日志记录,并对专线工作情况开展自动化预测。

 

针对原先难以快速定位的故障专线,系统能对专线运行具体情况进行智能呈现与自动指标统计分析,进一步在解放人力的同时,提升故障专线甄别效率;同时全流量手段对于各类指标的精确统计与专线流量的阶梯式梳理,也能更好满足当下的精细化监控需求,为专线资源使用率与性价比的提升打下基础。

 

提供专线容量规划依据

 

专线投入一般较大,清晰梳理出各项业务流量带宽占用与业务峰谷分布,是合理规划专线容量、扩充带宽的前提。银行启用了数据中心专线带宽管理,并设置带宽限制和流量控制,预防网络拥堵、延迟等情况,同时下调原本针对大量专线链路指标的处理、计算、分析等方面的人力投入,改由全流量系统对专线流量数据进行实时采集,直观输出以日、周、月为周期的流量趋势图。系统支持将比特率、比特率峰值指标的颗粒度精确到分钟乃至秒级,同时支持在趋势图中提供比特率均值、峰值、谷值,用以实现流量精细化统计,对于专线投入与利用效率的评估提供了更准确的评估依据。

 

为避免业务流量高峰、非工作时段低流量、异常流量数据突增等特殊情况影响专线带宽评估结果,银行通过全流量分析中心的数据汇总与归并能力,对流量进行分时段统计,汇总统计周期内的不同时间段超阈值次数以及超阈值累计时间,并分别统计归并。若周期内连续多次超阈值,并且相应时间内的TOP流量全部为业务流量,则进行扩容需求评估;若周期内突发超阈值情况,且超阈值时间内的TOP流量出现非业务IP,则进行回溯分析,定位异常原因。

 

实际应用中,可基于此将统计周期内超阈值时间汇总计算和业务流量成分精确到秒级,并结合专业算法模型提升准确度;对流量频繁超限和带宽长时间空闲的专线分别输出扩容与减容结论,支持主动推送给用户相关评估报告,实现更全面的智能化评估。

 

业务识别,梳理关键业务链

 

专线连接不同物理区域,同时传输数据又可能来自各类系统程序,复杂程度进一步攀升。因缺乏可视化手段,专线内运行业务情况、各关键节点状态和性能“黑盒”的情况屡见不鲜。

 

银行采用了流量梳理的方式区分开核心关键业务、非核心业务流量,并厘清其逻辑连接情况,对业务链进行梳理。与此同时,对原本延迟、丢包率、带宽利用率等网络专线质量情况实现了更细粒度的实时监测和分析,实现对专线运行质量、使用状况、异常流量情况的精细化监控。

 

专线异常事件定位与关键业务安全加固

 

专线搭载了大量银行关键业务与数据,稳定性直接关系到前台客情与业务进展,提前发现潜在运维隐患、及时处置异常事件格外重要。通过优化,可以更清晰地感知网络丢包、延迟等常见问题,并针对检查硬件、网络拓扑、软件等方面进行快速排查,做到故障的高效定位与修复。

 

高质量专线网络背后往往需要更可靠的运维能力支撑,对网络流量的监控进一步完善了银行运维视角,填补了原本在专线资源全局可视化与智能管控方面的空白。另一方面,提升了对于未知专线安全事件的快速发现、反应、分析、定位能力,优化了风险筛查与未知威胁实时监控预警机制,加固关键业务安全。

 

从稳健向好到变革创新,中信银行始终以创新驱动下数字转型的重要战略,数智运维则是其中不可或缺的重要技术根基。贯彻践行国有银行使命担当。未来,中信银行将进一步推进数字化转型与金融科技赋能革新,为更好服务经济社会注入新动能。