返回

对机房侧异常和骨干网链路异常的影响探析

见解分享

近期,我们负责百度云智能运维Noah外网质量监测平台的系统和策略研发,在网络监控方向有广泛实践经验。

在《百度网络监控实战:猎鹰一战成名(上)》中,我们简要介绍了一种网络异常类型——机房侧异常(百度侧设备/链路异常)。

该故障在数分钟至数十小时不等的区间内反复发生,涉及全球数十个国家,技术支持层面的排查工作十分繁琐。

而在当前,骨干网链路异常在规模和影响范围上,均有不同程度的增长。

无论是在日常运维工作中,还是在故障发生后的恢复工作中,区分机房侧异常和骨干网链路异常都十分必要。

那么,我们应该如何区分这两者?又该如何进行日常的预防性工作?

故障区分

对于机房侧异常,我们将排除外部因素,重点检视与机房网络设备或服务器相关的故障。

如我们提出的双链路/双路由检测策略,借助外部工具对机房所在边缘路由的上下行链路进行实时监控,由此推断机房侧问题的存在。

当然,监控手段和具体指标的设计是复杂且变化的,但原理是不变的。

同时,对于机房侧网络故障,我们可利用:

  1. SNMP监控,及时发现网卡错误、硬件故障等情况;
  2. SSH/TELNET、iDRAC监控,发现设备操作系统异常或断电宕机问题;
  3. 服务器软件监控,实时监测业务系统可用性;
  4. 服务器负载监控,发现因负载过高导致的系统假死或蓝屏问题;
  5. 系统日志监控,对系统、应用程序产生的异常日志进行集中汇总、分析,以发现早期异常征兆。

通过以上手段,我们能够及时发现机房侧故障,并为快速恢复故障创造条件。

骨干网链路异常是指业务链路中非机房侧设备(如运营商链路、光纤等)故障,从而影响业务系统访问质量。

链路异常问题主要集中在物理链路的损伤或故障,故障现象多样,难以预测。

目前,主流的方案是通过监控链路两端的设备状态和数据包的转发情况,如:

  1. 链路状态监控:利用SNMP协议周期性地获取链路状态,并通过中断机制及时捕获链路状态变化事件;
  2. 流量监控:利用NetFlow等协议对链路上的流量进行采集,并通过时序图对流量的涨跌幅、延迟等指标进行统计和分析,从而发现链路异常;
  3. 丢包监控:对链路上的报文进行实时监测,并通过丢包率等指标,来判断链路是否存在拥塞或故障;
  4. 时延监控:通过向链路两端发送探测报文,计算报文的往返时延,并通过时延的变化来判断链路是否存在异常。

与机房侧故障相比较,骨干网链路异常的修复通常较为被动。

当故障发生时,技术支持人员需要与运营商进行多方协作,找出问题根因并采取修复措施。

预防措施

为从根本上解决或减少机房侧异常的发生,我们需重点保障各机房的网络供电设备和物理设备的稳定运行,并提前做好应急处理的准备,从根本上解决或减少机房侧异常的发生,我们需重点保障各机房的网络供电设备和物理设备的稳定运行,并提前做好应急处理的准备。

这其中包括:

  1. 优化监控系统,提高对机房侧异常的检测能力;
  2. 优化应急预案,减少故障的修复时间;
  3. 优化故障处理流程,提高故障处理效率。

结语

通过对机房侧异常和骨干网链路异常的分析,我们可以看到,这两者都有各自的特点和影响。

在日常运维工作中,我们需要对这两类故障进行区分,并采取针对性的措施进行预防和处理。

同时,我们也需要不断地优化监控系统、应急预案和故障处理流程,以提高故障检测、恢复和处理的效率。