应急预案
最近更新时间: 2024-10-17 17:10:00
- 机房掉电处理预案
故障影响:
机房可能由于供电、空调、机柜故障或交换机故障等因素导致承载云监控业务的服务器全局发生掉电,导致业务中断。
恢复步骤:
使用批量脚本或命令,确认所有机器已开机并恢复网络连通性。
确认各机器上运行的进程是否已正常拉起。
确认storm/kafka/es服务已启动,可观察对应ui界面观察。
数据接收服务集群,是无状态的,进程拉起后,自动恢复。
如果前面的服务都没启动,需要确认zk服务是否正常。
使用本地zk-数据文件,恢复zk,然后再观察以上服务启动情况。
观察kafka数据目录文件是否正常更新。
观察storm-ui数据是否正常计算。
- Kafka服务整体集群故障处理预案
前置检查:
检查kafka状态是都正常
进入zk部署的bin目录下,运行zkCli.sh,运行 ls/kafka/kafka/okers/ids
如果上述命令返回少于3个,说明有节点异常,执行get /kafka/kafka/brokers/ids/0,可以得到节点2.ip信息(id的编号从上边的返回结果取),将返回的id依次执行,跟kafka部署的ip对照,既可知道异常的kafka节点信息。
故障影响:
Kafka服务作为监控数据的缓存节点,是流式计算的重要一环,正常情况下是集群模式工作。集群崩溃后,数据无法写入缓存,导致监控数据中断,isd.barad数据无法显示。监控告警无法正常发出,严重影响运营。
恢复步骤:
尽快恢复启动所有kafka服务器,并启动对应进程。
如有机器无法启动,需要寻找一台新的存储类型机器代替。
新机器的kafka=id要和旧机器一致,kafka-id信息可以从zk中获取。
异常的kafka进程恢复后,会自动进入kafka数据恢复。
登陆kafka机器,执行kafka-topic-describe命令,获取实时状态。