文档首页

全部产品

租户端运维工具云监控（BARAD）运维手册

应急预案

最近更新时间: 2025-10-11 18:10:00

前置检查：检查kafka状态是都正常进入zk部署的bin目录下，运行zkCli.sh，运行 ls/kafka/kafka/okers/ids 如果上述命令返回少于3个，说明有节点异常，执行get /kafka/kafka/brokers/ids/0，可以得到节点2.ip信息（id的编号从上边的返回结果取），将返回的id依次执行，跟kafka部署的ip对照，既可知道异常的kafka节点信息。
故障影响： Kafka服务作为监控数据的缓存节点，是流式计算的重要一环，正常情况下是集群模式工作。集群崩溃后，数据无法写入缓存，导致监控数据中断，isd.barad数据无法显示。监控告警无法正常发出，严重影响运营。
恢复步骤：
1. 尽快恢复启动所有kafka服务器，并启动对应进程。
2. 如有机器无法启动，需要寻找一台新的存储类型机器代替。
3. 新机器的kafka=id要和旧机器一致，kafka-id信息可以从zk中获取。
4. 异常的kafka进程恢复后，会自动进入kafka数据恢复。
5. 登陆kafka机器，执行kafka-topic-describe命令，获取实时状态。