Loading... 业务使用华为云,牵扯到北京和新加坡节点,而北京也承担了监控系统的重任。最近三天,时常网络中断,导致新加坡云主机上报categraf信息到北京节点失败,告警不断。昨天整理了相关信息,今天提了华为云工单。 ![2024-07-24T09:19:05.png][1] 对方也有排查流程,主要是 ``` mtr x.x.x.x --report ``` 拿到信息后,对方排查了几个回合,定位到当前北京和新加坡节点均有EIP流量超量告警。 果不其然,也没有收到过邮件告警,但是确实是有。 ![2024-07-24T08:02:17.png][2] 处理了一下过多的流量之后,近一个小时已经没有了告警。但是问题依旧存在。 ![2024-07-24T08:02:49.png][3] 于是,再次反馈工单。并且,尝试使用一些拨测平台进行测试,发现全球访问均正常,只是部分地址访问异常。 ![2024-07-24T08:03:26.png][4] ![2024-07-24T08:03:29.png][5] 提交两张图片之后,怀疑是华为云或者其他机构在网络中的安全设备影响。对方再次核查中。 简单梳理一下,在流量超量之后,会造成网络访问丢包、卡顿,但是不会是中断,比如如下情况: ![2024-07-24T08:04:42.png][6] 当天晚上,接到华为云的电话,大概分析了一下,对方也承认可能并不是因为超限造成,而且也联系了运营商进行优化。但是,问题依旧。考虑到晚上了,等明天再说吧。 第二天,对方说观测到还是有丢包。索性直接将流量带宽提升到100Mbps,这下没有丢包了。对方也不再说什么,继续排查。 与此同时,通过traceroute进行正反测试,包括正常情况与异常情况。 补充材料,从bj ping sg的190.92.221.0/24,.25是不通的,但是24和26是通的。 ![2024-07-25T08:53:36.png][7] ![2024-07-25T08:53:39.png][8] 目前看,sg到bj 走的是联通骨干,但是到联通海淀可能有问题;bj到sg走的是电信,福建电信到电信骨干没问题,但是出海就有问题了。详情见如下四图。 ![2024-07-25T08:53:54.png][9] ![2024-07-25T08:53:58.png][10] ![2024-07-25T08:54:03.png][11] ![2024-07-25T08:54:06.png][12] 稍后,对方又说已经联系了运营商进行了调整。可是,问题依旧。 ![2024-07-25T08:54:41.png][13] ![2024-07-25T08:54:37.png][14] 17:00左右,云计算那边应该是被工单搞的不行了,毕竟24小时没有解决。对方打来电话,说了一下进展,对方将该IP地址出口从国际链路与电信链路之间进行切换,都是好一会儿然后就异常,还是无法正常使用。无奈,只能将问题归咎于国墙了。 然后就是扫尾工作。 (1)从华为云上购买一枚新的EIP地址,解绑老地址,绑定新地址。收到告警,新加坡主机监控上线。 (2)打开阿里云,针对每个域名搜索190地址,将解析改成新地址。 (3)修改监控系统nagios,通过sed批量修改成新地址并重启。 (4)修改堡垒机中关于该服务器的地址。 检查: (1)nagios监控正常。 (2)夜莺监控中该主机监控数据恢复正常。 事毕。 不出意外还是出意外了。没有经过检验的结果是靠不住的。过了一小会儿,问题又出现了。 经过之前的反复排查,大胆的做了一个测试,将北京云主机的服务端口17000挂到了该区域的ELB上面,没想到通了,而且状态稳定。 ![2024-07-26T00:50:36.png][15] 另外,也做了一个从新加坡云主机到UCloud云ULB的长ping,没想到一晚上一个丢包也没有。 ![2024-07-26T00:50:10.png][16] 而从华为云新加坡到华为云北京四的ecs的eip,确实不通,或者时断时续。 26号一大早,提了工单,可是测试sg到ecs的eip居然没有问题了?搞的工单里面赶紧跟人说目前良好,无法复现。稍后,华为云电话也打来了,希望可以开会讨论。可是,我说目前现象已不能复现,等等再看吧。于是,关闭了工单。 就这样,过了一会儿之后,看着绿色的连通性能,心中在想到底是咋回事儿呢? ![2024-07-26T02:53:48.png][17] 于是,分别在sg和bj的ecs里面进行路由追踪,看下图: ![2024-07-26T02:54:15.png][18] ![2024-07-26T02:54:18.png][19] ![2024-07-26T02:54:21.png][20] 居然改到联通了!!! 之前,sg到bj之间走的是电信线路,现在走的是联通线路。 [1]: https://www.sddts.cn/usr/uploads/2024/07/928873966.png [2]: https://www.sddts.cn/usr/uploads/2024/07/2190856445.png [3]: https://www.sddts.cn/usr/uploads/2024/07/3410908005.png [4]: https://www.sddts.cn/usr/uploads/2024/07/314618980.png [5]: https://www.sddts.cn/usr/uploads/2024/07/2199909502.png [6]: https://www.sddts.cn/usr/uploads/2024/07/422774176.png [7]: https://www.sddts.cn/usr/uploads/2024/07/3490507825.png [8]: https://www.sddts.cn/usr/uploads/2024/07/1812611408.png [9]: https://www.sddts.cn/usr/uploads/2024/07/2842794248.png [10]: https://www.sddts.cn/usr/uploads/2024/07/2275525378.png [11]: https://www.sddts.cn/usr/uploads/2024/07/3558007596.png [12]: https://www.sddts.cn/usr/uploads/2024/07/4149591568.png [13]: https://www.sddts.cn/usr/uploads/2024/07/1844367342.png [14]: https://www.sddts.cn/usr/uploads/2024/07/1989570101.png [15]: https://www.sddts.cn/usr/uploads/2024/07/1318290303.png [16]: https://www.sddts.cn/usr/uploads/2024/07/2374760056.png [17]: https://www.sddts.cn/usr/uploads/2024/07/218067137.png [18]: https://www.sddts.cn/usr/uploads/2024/07/4149859439.png [19]: https://www.sddts.cn/usr/uploads/2024/07/3326131478.png [20]: https://www.sddts.cn/usr/uploads/2024/07/3544302070.png 最后修改:2024 年 07 月 26 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏