煤矿生产网络瘫痪,紧急抢修实录

在数字化飞速推进的今天,网络与业务的稳定性变得前所未有地重要。对能源行业而言,网络是各类智能业务、应用落地的基础,也是业务数据流转不可或缺的通道,尤其是煤炭为代表的行业,不仅生产空间大,生产过程复杂,更对于生产效率、生产安全有着极高要求,一旦网络发生故障,越快找到问题根源并解决,就越意味着挽回了不可估量的潜在损失。

以下内容转自公众号《煤域鑫声》,作者从一线视角记录了某煤矿网络突发瘫痪后的紧急抢修全过程,通过煤矿全矿网络瘫痪事件为切入点,作者分别提出了网络环路、协议冲突等不同故障猜想,并通过流量分析等手段逐步缩小故障范围、确认问题原因,对于网络建设和故障处理具有重要的参考意义。

  故障概况  

工程师接到Y煤矿紧急电话,全矿网络突发瘫痪且矿方自查无果,已严重影响煤矿正常生产。Y矿方人员反映井下生产网络整体瘫痪,怀疑接入点环路故障,尝试断开井下接入点与设备后故障依旧。

需说明的是,网络故障排查期间,反馈信息的准确性和专业性易受紧张氛围影响,部分信息可能成为干扰判断的 “烟雾弹”,需结合现场核查逐步验证。

  故障猜想  

第一种:地面与井下交换机汇聚网口连线的网络整体瘫痪,与环路问题相似,虽Y矿方人员反馈断开井下线路与设备后故障依旧,环路的接入点并非矿方人员排查处;

第二种:环协议冲突,之前MOXA以及赫斯曼交换机组环协议有保护功能,协议不兼容可能阻塞端口;该矿使用的华为万兆交换机组环,相关协议配置需现场确认;

第三种:网络安全类的异常流量攻击,如DOS攻击、中间人攻击等,可能引发网络瘫痪。

  排障过程  

排障第一天

工程师在当日晚21:20抵达现场进行故障重现,恢复其所说与调度汇聚交换机连线时,验证矿方人员描述冲突“卡死”情况,其机房汇聚交换机指示亮闪烁频率较快,仍然疑似环路。

1.网络架构分析:X矿网络未采用传统工业环网产品相同组网思路,而是使用华为万兆交换机基于MPLS(Multiprotocol Label Switching,多协议标签交换)技术,在OSPF三层路由上运行二层,且核心交换机配置为二层转发模式,整体架构虽不常见,但转发逻辑符合常规处理思路。

井下的交换机均为无法管理的非网管型二层交换机、地面调度中心交换机同样为非网管设备。

2.网管与设备状态核查:其调度台上华为网管eSight系统正常工作,拓扑中设备性能与负载都处于低位。登录机房核心交换机梳理配置时发现,网络存在VLAN划分,主要使用的2个VLAN:Vlan2(网管 VLAN,运行正常)、Vlan100(人员定位)、Vlan101(业务量最大,涵盖工业视频、应急广播等核心业务,故障最为严重)。

3.流量监测:工程师使用自带镜像交换机,将存在冲突的接口流量导入笔记本,发现大量DNS响应UDP小包(64~127),对千兆接口而言流量并不大。尝试查找DNS源地址19.X.X.1对应的主机,但因井下交换机为非网管型,技术上无法直接确认,矿方人员排查后亦未找到对应主机。深夜已至排除效率过低,暂停排查。

排障第二天

次日环网技术人员到矿,工程师分别登录井下各位置交换机,从性能与利用率等指标无法判断故障原因,确实有三台交换机百兆接口利用率达100% ,推断怀疑是视频业务流量过大导致该问题,且关闭其中异常交换机的异常端口后网络延时与丢包仍未解决。

因先后去往井下三个地点排查,进展受阻,最终聚焦中央变电所交换机异常15接口:

该接口下侧两个摄像仪百兆流量不符合常理(正常高清8兆左右),拔线接入笔记本测试排除终端摄像仪本身故障;

排除双绞线问题后,通过科来网络分析系统抓包分析,对该接口进行镜像流量分析,发现环网延伸某处存在局部环路——而在地面进行Down接口时可能忽略了该局部环路。

  关键流量分析  

现场抓包发现大量完全相同的DNS响应UDP小包持续泛洪,这类小包虽单包体积小,但数量庞大,对网络性能消耗显著,远超大型数据包的影响;

DNS包中的五元组信息完整,两终端肯定具有ARP信息,但完成DNS查询封装下存在环路的原因是交换机工作原理有关,存在环路情况下,交换机收到未知单播帧(目的MAC为单个设备)时,无法在其MAC地址表中找到该目的MAC地址对应的端口,从而将该帧泛洪到同一VLAN内的所有端口(除接收该帧的端口外),导致DNS响应流量无限放大。

华为网管设备性能指标正常,因转发的流量限制在Vlan101中环接口100兆接口,流量不足以体现在骨干的交换机性能指标跟告警中。

  故障根源定位  

升井后进一步核查 DNS 源地址 19.X.X.1,确认关联设备为某品牌超长距高速摄像机,该类设备安装在综采工作面,支持长距、超高速传输。通过Goby扫描发现,该设备开放 80、443、53、23、21 等端口,具备管理功能。

拿到摄像仪参数,其内部高速接口2个(相当2个网口)下面4个百兆电口。理解本质每一台摄像仪就是6口交换机+1个摄像仪+管理板卡默认为192.168.11.1。矿方反馈综采工作面约有七八台该类型摄像仪,一台长距本安的交换机。

  故障修复  

将综采工作面的交换机、摄像仪全部断线升井,拆解排查。故障根源是将长线摄像仪中的线路中其他正常连接的摄像仪之间形成网络环路,进而引发IP地址冲突以及局部环路,导致网络瘫痪。

明确其标准连接方式,重新恢复综采工作面摄像仪,综采面工业视频一一恢复。相同Vlan下的广播大性能分析后基站死机都需要矿人员入井一一重启。

  排障复盘  

当前矿山采用 “大傻瓜交换机” 构建跨网段 “大二层” 通信模式,已严重滞后于信息化智能化发展需求,且存在重大安全隐患:地面与井下广播域过度扩展,形成“一环瘫痪全网中断”的风险;生产网络与地面路由直接互通,未按业务类型划分 VLAN,广播流量与视频流量混杂;随着固定场所视频设备持续增加,未单独划分 VLAN,导致广播域故障影响范围扩大。

  优化建议  

一、强化顶层设计,构建安全隔离架构

必须从矿山智能化角度进行网络规划设计,严格执行地面与井下网络物理隔离或逻辑强隔离机制,部署防火墙、入侵检测等专业网络安全防护设备,形成纵深防御体系。基于业务类型重新梳理并划分VLAN,将生产控制、视频监控、办公通信等流量严格隔离,保障生产业务优先传输,方便井下施工安装。杜绝大范围采用二层无线扩展的广播域通信模式,避免因多网段互通导致多网卡冗余,增加网络安全管理复杂度。

二、配齐专业运维力量,规范网络管理

矿方需配备专职/兼职网络管理人员,负责 VLAN 划分、接口配置、设备监控等日常运维工作。后续采购或新增交换机时,必须选用具备网管功能的设备,统一配置网管地址,实现远程监测与集中管控,提升网络运维的精准性和效率。

三、严格设备入井管控,做好前置规划

设备入井前,各业务部门需提前完成对应业务系统的 VLAN 规划和 IP 地址分配工作,详细记录设备产品形态(留存清晰照片),梳理设备连接拓扑图。针对矿山常用的、与地面传统设备不同的非标摄像头(多数自带多网口/光口接入功能),必须重点核查并明确设备连线规范,要求供应商提供详细的接线手册,且手册需清晰标注接线定义、引脚对应关系、通信协议参数等关键信息,确保技术人员掌握正确接入方式。针对多设备串联场景(如 4-6 个摄像头级联),务必做好线标标识和图纸归档工作,避免后期维护混乱。

矿山网络架构的优化升级需坚持“顶层设计引领、专业团队保障、前置管控把关、技术手段支撑” 的原则,彻底摒弃传统落后的通信模式,构建符合智能化矿山发展需求的安全、可靠、高效的网络体系,为矿山安全生产筑牢网络安全屏障。

暂无评论

发表回复