视频会议故障描述
对于视频会议的应用,主要就是在稳定,在进行视频会议的时候如果出现利用率波动过大、网络流量占用过大的情况,那么视频会议可能就会出现视频中断、视频反应慢等故障。
网络环境
省局的视频会议是接在核心交换这一块的,MCU通过一台“北电”路由器与核心交换机相连,“北电”路由器连通国家局路由器,以便于与国家局进行视频会议。地市局的视频会议通过地市局路由器与国家局路由器相连到MCU,地市局上网都会走地市局路由器到防火墙这条线路。
故障现象
地市局到省局的线路是走2M线路,在与地市局进行视频会议的时候,会出现动作延时,视频会议反应慢,图像没反应等现象。视频会议信号差,Ping地市局视频会议的IP地址时,出现延时比较大,还有丢包现象。
视频会议故障分析
对于引起视频会议延时的原因,可能是网络中了病毒、网络受到攻击或者是中间通信设备故障造成,为了能够了解到造成故障原因,我们对故障进行以下的分析
分析方法
对于该类网络故障,我们可以利用数据包捕获法来要了解它的数据包交互过程,通过捕获到的数据包观察网络有没有受到攻击、有没主机中病毒、视频会议的交互数据包有没有丢包等。通过综合信息来分析故障出现的原因,然后再结合相应的解决办法来解决该类故障。
部署方式
我们从上面的介绍知道所有的交互都要经过核心交换机,所以我们将科来软件部署在核心交换机上,镜像不同的端口来捕获各个交互的数据包,具体部署如下图所示:
具体分析
确定内部网络是否有攻击行为
我们先将所有的端口都做镜像,捕获网络中所有的交互流量,根据各交互数据查看网络中是否有病毒主机、网络是否受到攻击等一些异常行为。
我们从捕获到的数据包观察网络的总体情况,如下图所示:
如上图所示,在一个半小时的时间里总共有11.730GB的流量经过核心交换机,我们从后面的端点流量等情况可以看到有重复捕获的流量,所以产生的流量并不是特别的大。
再看数据包分布情况,大包和小包的数量比值相差不大,没有过多的小包或过多的大包产生,因为病毒通常会造成大量的小包产生,而攻击包可能是发送大量的小包或者是利用大流量造成网络带宽被过多占用而使网络瘫痪,但是如图所示没有类似的数据包。
对于TCP连接情况,我们可以通过它来发现网络中有没有基于TCP的网络攻击等行为。通常一个初始化TCP连接对应一个成功建立连接,它俩正常的比值应该为1:1或者接近1:1,如上图所示,两者相差不大,比值较为正常,所以TCP的连接情况应是正常的。
从上图我们可以看到,流量排在第一位的是一个广域网地址,通过了解才知道该地址是煤监局的出口地址,所以流量大是属于正常情况,后面几个流量大的主机通过分析可以发现他们在进行下载。
我们再看看整个网络的协议使用情况,观察看看是否有异常协议使用的出现,是否有不常用协议的流量变大等,如下图所示:
从上图中可以看到,整个网络的协议使用靠前的几位?直鹗荱DP-Other、HTTP、TCP-Other等都是我们在正常网络中经常出现的协议,UDP-Other和TCP-Othet 等都是我们在正常网络中经常出现的协议,UDP-Other 通常在我们进行下载、在线视频时会出现这类协议,所以从使用的协议来看,网络中协议使用量也是正常的。
综合上面的总体分析,我们可以得出整个网络是出于正常应用的状态,没有异常的攻击、没有病毒,所以造成视频会议慢不是网络病毒攻击造成的。
具体分析视频会议故障
我们经过上面的分析知道,网络总体来讲是没有问题的,于是为了解决问题,我们就要在故障现场进行观察,抓取在视频会议进行时的数据包,分析其具体的原因。
我们在抓取视频会议的数据包时,发现属于视频会议的网段流量比较大,如下图所示:
从上图中可以看到,在1分钟左右的时间里,产生了将近90MB的流量,而且我们可以看到,77网段的主机流量将近47MB,78的网段流量将近21MB,74的网段流量将近7MB,而且这三个网段都是视频会议所在的网段,可以看出视频会议所在的网段占用了一大半的网络带宽。
看看网络利用率的图示,看看网络的利用率是如何分布的,具体情况如下图所示:
从上图可以看到77段和78段的网络利用率想对于它们的通信带宽都比较大,因为各个视频会议的通信带宽是2M的,从上面的利用率我们可以看到整个视频会议的网络利用率都非常的高,占用了大量的网络使用带宽。
而且我们同时在进行Ping测试时发现,对于Ping 77和78段的网络时,会经常出现丢包、延时大的故障现象,而对于74段网络比较正常。
我们知道视频会议主要是通过中间设备MCU来控制和组织各视频会议终端,通过后期的了解发现,所有的视频会议终端都要跟MCU 交互,然后才能在视频会议的大屏中彼此做交流
因此我们针对各个视频会终端地址与MCU地址的数据进行分析,可以看到整个视频会议过程中的平均流量大小的情况,如下图所示:
从上图我们可以看到,红框标识的IP地址就是视频会议的IP地址,我们可以看到视频会议平均每秒的流量在1Mb左右,所以视频会议所需要耗费的带宽只要在1Mb左右就行了,但是整个77段和78段的流量使用很大,占用的视频会议的所需的带宽所以导致了Ping视频终端出现丢包、延时等现象。
服务器的运行分析
网络中有对外开放的Web服务器,根据负责人介绍,Web服务器可能受到了外部攻击或者本身中了病毒,所以我们对服务器的交互数据包进行捕获,分析他是否有异常,如图所示:
如上图所示,服务器的流量不是很大,TCP连接数有点异常,通常TCP连接异常可能会有基于TCP的攻击或中了基于使用TCP端口的病毒,但是我们看会话视图,可以看到造成TCP初始化和成功建立连接比值差异的主要原因是由于在访问进行TCP三次握手时出现了数据包重传造成的,并不是基于TCP的攻击、病毒等造成的。
我们再看一下它使用的协议情况,如下图所示:
通常正常应用中的协议应用流量很小但是却发生异常流量变的比较大的协议,可能就是由中了某种病毒造成的。我们通过观察服务器使用的协议可以发现该服务器使用的主要协议就是HTTP协议和CIFS协议,我们知道该服务器的主要作用就是对外提供Web服务,所以HTTP协议的流量大是正常应用,对于CIFS协议我们知道它是微软自带的共享协议,我们通过分析发现使用该协议时它有数据交互,所以该协议是正常应用,并不是病毒造成的。
我们在看他的流量情况,可以发现它的收发包比值也是接近1:1的,因为该服务器提供的是Web服务,所以它发送的数据包数量会大于接受的数量,这是处于正常的交互中。
综合上面的分析我们可以得出,该服务器是处于正常的运行状态,并没有受到网络攻击,也没中病毒的情况。
总结
通过上面的分析,我们可以得出造成视频会议延时的主要原因就是视频会议网段的网络流量过大,进而造成了视频会议正常的应用流量被占用,从而导致问题的出现。
根据负责人介绍,我们了解到,下面地市都是通过视频会议的2M线路实现上网功能的,一旦网络中有人进行下载、在线看视频等大流量的操作时,就会占用大量的网络带宽。所以要解决此类故障可以将除了视频会议应用以外的所有应用排除出去,使视频会议独占2M的网络,这样就可以保证在进行视频会议时网络利用率处在一个平稳的阶段,这样就不会造成网络丢包和延时。
视频会议是一种需要稳定的应用,所以为了保证视频会议能够正常的应用,就需要避免其他应用与视频会议应用杂合在一起,应该尽量个视频会议一个独立的网络环境,以保证它的正常使用。
对于网络中的重要服务器,我们应该加强对他的安全控制,将服务器不需要的端口关闭,安装杀毒软件或者增加一些安全设备来保证它的安全,以保证服务器的安全运行。