告警配置建议

最近更新时间: 2024-10-17 17:10:00

消息队列CKafka 不仅为运行中的 CKafka 集群提供了多项监控指标,用于监测集群的运行情况,还提供了一些关键指标的配置告警功能,帮助您及时发现集群问题并进行处理。具体使用方法可参考 [查看监控] 和 [配置告警] 。

本文为您介绍在使用 CKafka 过程中需要重点关注的一些指标及其告警建议配置:

监控告警指标配置补充建议:

指标 告警建议配置 详细说明
CPU使用率(%) 统计周期1分钟,>90%,持续5个周期,每30分钟告警一次 CPU 使用率表示集群各节点 CPU 使用率的值。该值过高会导致集群节点处理能力下降,甚至宕机。发现 CPU 过高时,应根据集群当前节点配置情况和业务情况,提高节点规格或降低业务请求量。
内存利用率(%) 统计周期1分钟,>85%,持续5个周期,每30分钟告警一次 JVM 内存使用率表示集群各节点 JVM 内存使用率的值。JVM 内存使用率过高会导致读写操作被拒绝,集群 GC 频繁,甚至出现 OOM 等问题。当发现 JVM 内存使用率超过阈值时,建议通过纵向扩容的方式提高集群节点的规格。
磁盘使用率(%) 统计周期1分钟,>80%,持续5个周期,每30分钟告警一次 平均磁盘使用率表示集群各节点磁盘使用率的平均值。磁盘使用率过高会导致节点没有足够的磁盘空间容纳分配到该节点上,从而导致消息无法落盘,建议在平均磁盘使用率超过75%时及时清理数据或扩容集群。
未消费的消息条数(Count) 统计周期5分钟,>8000,持续10个周期,每30分钟告警一次 堆积过多的消息会导致broker 节点磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容
生产峰值带宽(MB/s) 统计周期1分钟,>所购买的实例带宽规格,持续5个周期,每10分钟告警一次 一分钟内,客户每秒的流量最大值。判断是否超出当前所购买的流量上限。可根据此项适当选择升配操作等