分公司网络缓慢故障分析

故障现象

分公司内部的客户端在利用网络办公的时候,网络延迟很大,在严重的时候,甚至无法连接对方主机。
拓扑结构:

该网络的数据流向:
该分公司内部主机之间的通讯。此流量流经相关的接入交换机和分公司核心交换机。
该分公司内部主机与其他分公司之间的通讯。此流量流经相关的接入交换机、该分公司核心交换机和路由器,通过8M带宽的出口至市中心机房。
该分公司内部主机与总公司HTTP Server和DNS Server之间的通讯。此流量流经相关的接入交换机、该分公司核心交换机和路由器,通过8M带宽的出口至市中心机房,然后由中心机房通过广域网链路转发至总公司。
科来网络分析系统2010的流量捕捉点位于该分公司核心交换机向路由器的出口,所捕捉的流量为2、3、4中所述。

故障分析
基本流量

由于数据包的捕捉点的带宽为100M,因此在该出口查看网络的利用率并不高,小于10%。但是,该链路的数据包要经过路由器8M的出口,这些数据包流经此链路时网络平均利用率上升为50.534%,峰值利用率为57.31%,利用率较高,网络质量较差,易产生拥塞、丢包等网络问题。另外,网络中小包的数量较多,说明网络的传输效率不高。较多的小包需要进一步的检查。


网络应用

网络中的主要应用为HTTP协议(45.58%)、HTTP Proxy协议(33.24%)、CIFS协议(10.97%)、DNS协议(6.13%)和TCP Other协议(3.37%)、UDP Other协议(0.01%)。其中,HTTP协议和HTTP Proxy协议为网络中的正常应用;CIFS协议和DNS协议本应是网络中的正常应用,但是在此网络中却表现异常,需要进一步的分析。

传输性能

出现大量的重传、慢应答和重复确认,说明传输性能不佳。大量的重复连接尝试说明很可能存在大量无效的TCP SYN连接,这点与前述的小包数量较多相应和。

危害网络的异常流量

有三台主机向其他主机发起大量的CIFS连接,持续时间为整个数据包捕获过程。这些攻击所发送的数据包均为64B左右的小包,这些大量的数据包需要经过接入层交换机、本分公司的核心交换机、路由器以及市中心机房的网络设备,给这些网络设备的转发能力增加了很大压力,造成了该网络链路的拥塞。
02
01
另外,还有其他一些地址也发现了少量可疑的CIFS扫描行为。
01
还有一些主机的不明TCP请求遭到拒绝,有请求1120端口的,还有请求Rwhois服务和HTTP服务的,需要网络管理员在主机上做详细排查。
02
03
04
这些异常流量应该就是导致网络中大量重复连接以及数量众多的小包的原因。

错误的DNS配置:
科来网络分析系统2010的故障诊断模块显示有大量的DNS查询错误,持续时间为整个数据包捕获过程。详细查看该软件的DNS日志,发现所查询的内容大多为:www.baidu.com、portal.biyibi.xunlei.com、sdup.360.cn等网站,经过进一步分析,发现这两台DNS服务器位于外地的总公司,只能解析内部的域名,因此对于这些外部域的查询名返回查询错误。
这些请求外网域名解析的客户机装有两块网卡,分别负责内外网的连接。由于这些主机上装有一些百度、迅雷和暴风影音的插件,在内网连接的模式下,这些插件自动与外网的地址进行连接,在域名查询的时候,将请求发送到了无法解析外网地址的内网DNS,因此返回了查询错误。这些大量的DNS请求查询和返回错误的数据包不但经过该分公司内部的接入层交换机和核心层交换机,还经过了路由器和8M的出口链路,以及到省公司的广域网链路,因此占用了大量宝贵的网络资源,对网络质量产生了较大的影响。
03
04

其他问题

TTL值太小
在诊断模块中,发现有TTL值过小的故障,经查看,是路由器发出的OSPF协议链路状态更新数据包,由于不想让这些包扩散到子网之外,因此TTL值设为1。
05
ICMP目的不可达
在诊断模块中,发现有ICMP目的不可达故障,经查看,是某些主机请求的CIFS协议被防火墙设备拦截后发回的ICMP消息。

ICMP端口不可达
在诊断模块中,发现有ICMP端口不可达,经查看,是某些主机向某台主机请求了DNS服务,但是在该主机上没有开启DNS服务。这是由于那些客户机的DNS配置错误造成的,需要在客户机上修改为正确的DNS配置。

综合分析

根据以上的分析,可以基本确定网络缓慢的原因是由于蠕虫病毒所发出的大量的连接请求和DNS查询失败的数据包所引起的网络设备的资源的大量消耗,导致网络设备性能的下降以及网络链路的拥塞,使网络的整体质量下降,造成了网络的缓慢。
根据拓扑结构可知,大量的流量要经过路由器到达市中心机房,甚至要经过广域网链路到达省公司(DNS和HTTP服务),一方面较长的链路导致了网络时延的增加,另一方面所经过的专线(8M)和广域网链路带宽较小,一旦出现蠕虫或拒绝服务攻击等安全问题,很可能会出现大量跨网段的扫描,这些流量必然会经过专线(8M)或广域网链路,造成网络的拥塞。

解决方案:

在有蠕虫病毒的主机上查找蠕虫病毒,利用最新版本的杀毒软件进行病毒和木马的查杀。那些不明CIFS或RWhois扫描的主机,需要在相应的主机上查找相应的进程,然后找到启动进程的文件

(可能需要第三方软件),将其删除。卸载相应主机上的暴风影音、迅雷等插件。

可在该分公司内部安装一台辅助DNS服务器,解析网内的DNS查询,减少出外网的DNS流量。然后在此辅助服务器上启用转发服务功能,将转发服务器设置为一个能够查询外网的DNS服务器。然后在客户端上将DNS设置为此辅助DNS服务器。这样,客户端在内网模式下,如果查询外网的域名,会把请求送至此辅助DNS服务器。此辅助DNS服务器在内网区文件内查询不到结果的时候,会把请求以递归方式转发至外网的DNS服务器来查询外网域名(有朋友认为在客户端填写两个DNS服务器的IP,一个内网的,一个外网的。期待着如果查询内网的不成功,客户端就自动去查询第二个DNS。这是行不通的,因为查询第一个DNS产生错误之后,就不会再查询第二个)。