早上,ZQ发来一个消息

Nov 14 2023 12:10:44+08:00 ISP %%01IFPDT/4/PKT_OUTDISCARD_NL(l)[98]:Interface output discard restored to the log threshold. (Interface=GigabitEthernet0/0/4, Statistics=805968, LogThreshold=300, LogInterval=300(s),PortQueueNumber=0, PortQueuePassed=255608658, PortQueueDropped=805968, PortQueueNumber=1, PortQueuePassed=0, PortQueueDropped=0,PortQueueNumber=2, PortQueuePassed=0, PortQueueDropped=0, PortQueueNumber=3, PortQueuePassed=0, PortQueueDropped=0,PortQueueNumber=4, PortQueuePassed=0, PortQueueDropped=0, PortQueueNumber=5, PortQueuePassed=0, PortQueueDropped=0,PortQueueNumber=6, PortQueuePassed=17959230, PortQueueDropped=0, PortQueueNumber=7, PortQueuePassed=0, PortQueueDropped=0)

早上,ZQ收到华为监测点发来的告警,提示NIC电信出口地址监测出现异常,而阿里监测点没有发现问题。登录交换机后,发现了上述日志,并且该日志不少。

乍一看这个日志跟交换机Discard包有关系。而2016年提交了openfalcon交换机swcollector中关于discard包的监测功能,正好派上用场。

首先,看下gpt的回答。
2023-11-29T08:44:05.png
2023-11-29T08:44:11.png
2023-11-29T08:44:16.png
2023-11-29T08:44:21.png

gpt并没有给出有价值的信息。看来,这个问题是小众问题。

查看下监控,根据error信息显示,并没有问题。

该部分仅登录用户可见

下午,通过进一步查看监控信息
特点:早8到晚八之间有丢包
2023-11-29T08:45:32.png

通过falcon查看G0/0/4口的信息

该部分仅登录用户可见

早8到晚八之间有4口出方向丢包
2023-11-29T08:46:57.png

本月数据,持续有丢包
2023-11-29T08:48:00.png

近2月数据,持续有丢包
2023-11-29T08:48:21.png

近半年,10月第二周以来,丢包现象严重。
2023-11-29T08:50:24.png

今年以来,持续有丢包,且2月底以来开始有大的变化。且3、4、8、10、11,尤其是10、11月份丢包更频繁,看起来与传输数据大小有关系。
2023-11-29T08:48:43.png

监控数据只保留1年,对所有数据分析,3月底以来开始有丢包,之前虽然也有,但是数量并不多。
2023-11-29T08:51:20.png

再看交换机接口数据包状态统计截图
2023-11-29T08:53:09.png

总结:华为监控点监测到云中心电信线路异常问题,通过使用openfalcon查看1年内数据,该交换机只有该接口存在出方向丢包记录,且3月底以来情况加剧。另外,如果可以对比流量图,可以看出流量与丢包的关系,猜测应该是正相关关系。
处理方法:更换网线、更换网口、更换交换机。

最后修改:2024 年 05 月 11 日
如果觉得我的文章对你有用,请随意赞赏