哥们发来消息,最近使用夜莺阿里云插件对云服务,包括ECS、RDS等进行了监控,但是设置告警的时候没有告警产生。

首先,通过添加一个process_total的本地监控指标设置了一个告警,测试是否可以告警,以此检查alarm功能是正常的。

然后,哥们说看下categraf的配置。一行一行看了下,发现了一个delay指标。这个指标过去还真没有遇到过。
2024-04-30T08:25:41.png
读了几遍官方文档的介绍,说真,理解水平有限,还是无法准确理解。但是,有一点是了解到了。与传统得categraf采集host指标不一样,阿里云插件工作的时候采集到的阿里云资源指标可能不是实时的,而这个地方的2m就是2m。哈哈,

猜测,categraf使用agent拉取阿里云的时候,因为阿里云的监控数据不是实时的,所以会设置delay参数,查询10分钟前的数据。对,如此一来,监控告警失效以及时序指标查询出不来 两个问题就对上了。

然后,哥们重新设置了采集参数,将delay设置成2m,把告警规则频率设置成了300s。

观察中...

观察到了60s一次的数据采集。
2024-04-30T08:28:53.png

监控指标出现了一批。
2024-04-30T08:29:17.png

看来这个delay参数以及告警策略生效参数有点搞头。

删除了测试告警设置。
2024-04-30T08:31:48.png

修改了监控指标,告警恢复了一批。然后就是全部恢复了。

2024-04-30T08:32:28.png
2024-04-30T08:32:42.png

最终,设置delay 2m,采集period 60s,告警规则执行频率60s,持续时长120s。

有时间把老秦的视频再看一遍,进一步学习夜莺工作的原理。

最后修改:2024 年 05 月 11 日
如果觉得我的文章对你有用,请随意赞赏