一、案例背景
科来服务器部署在某地公安局保障机房的核心和汇聚交换机上,用于监控重要业务的网络通讯情况。2015年4月初,110接警平台主备服务器发生多次切换。该服务器平台建设较早,已有10年之久,期间没有发生过异常切换。服务器运维人员通过ping包记录发现服务器切换时,有丢包现象,丢包率在1-5‰左右。所以服务器运维人员认为是网络异常波动导致丢包发现从而导致切换发生。但是网络运维人员通过网络测试并没有发现任何异常…
如果110接警平台宕机,后果不堪设想…..
二、故障排查
科来公司在接到公安局IT运维民警电话后,迅速到达公安局信息中心。通过科来网络回溯分析系统快速找到了110接警平台异常切换原因。
我们可以看到,在切换发生时段,服务器对客户端的SYN请求直接发送了ACK-RST,在连续3次请求都被RST后,客户端就放弃了连接请求。
在切换发生时段,我们看到并不是所有的服务请求都失败,失败和成功的比例大概是1:2左右:
同时我们看到,有些客户端的请求在失败两次后,在第三次成功建立了TCP连接。
由此说明,服务器在切换时段性能明显不足,导致了大量请求失败。
三、结论及验证
综合以上分析,同时结合公安局IT运维人员的网络测试结果,我们可以知道:造成该地公安局110接警平台主备服务器异常切换的原因是110接警平台服务器性能不足,导致大量访问请求失败,从而触发了切换策略。
结论验证:在我们将分析结论告知该公安局IT运维人员后,他们将服务器进行了升级处理。升级完成后,没有再发生主备切换。