Loading... 哥们发来消息,最近使用夜莺阿里云插件对云服务,包括ECS、RDS等进行了监控,但是设置告警的时候没有告警产生。 首先,通过添加一个process_total的本地监控指标设置了一个告警,测试是否可以告警,以此检查alarm功能是正常的。 然后,哥们说看下categraf的配置。一行一行看了下,发现了一个delay指标。这个指标过去还真没有遇到过。 ![2024-04-30T08:25:41.png][1] 读了几遍官方文档的介绍,说真,理解水平有限,还是无法准确理解。但是,有一点是了解到了。与传统得categraf采集host指标不一样,阿里云插件工作的时候采集到的阿里云资源指标可能不是实时的,而这个地方的2m就是2m。哈哈, <div class="tip inlineBlock info"> 猜测,categraf使用agent拉取阿里云的时候,因为阿里云的监控数据不是实时的,所以会设置delay参数,查询10分钟前的数据。对,如此一来,监控告警失效以及时序指标查询出不来 两个问题就对上了。 </div> 然后,哥们重新设置了采集参数,将delay设置成2m,把告警规则频率设置成了300s。 观察中... 观察到了60s一次的数据采集。 ![2024-04-30T08:28:53.png][2] 监控指标出现了一批。 ![2024-04-30T08:29:17.png][3] 看来这个delay参数以及告警策略生效参数有点搞头。 删除了测试告警设置。 ![2024-04-30T08:31:48.png][4] 修改了监控指标,告警恢复了一批。然后就是全部恢复了。 ![2024-04-30T08:32:28.png][5] ![2024-04-30T08:32:42.png][6] 最终,设置delay 2m,采集period 60s,告警规则执行频率60s,持续时长120s。 有时间把老秦的视频再看一遍,进一步学习夜莺工作的原理。 [1]: https://www.sddts.cn/usr/uploads/2024/04/2783139033.png [2]: https://www.sddts.cn/usr/uploads/2024/04/433257392.png [3]: https://www.sddts.cn/usr/uploads/2024/04/2702757586.png [4]: https://www.sddts.cn/usr/uploads/2024/04/236150610.png [5]: https://www.sddts.cn/usr/uploads/2024/04/2372783300.png [6]: https://www.sddts.cn/usr/uploads/2024/04/135603983.png 最后修改:2024 年 05 月 11 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏