应急预案

最近更新时间: 2026-06-30 15:06:00

  1. 机房掉电处理预案

    • 故障影响:
      机房可能由于供电、空调、机柜故障或交换机故障等因素导致承载云监控业务的服务器全局发生掉电,导致业务中断。
    • 恢复步骤:
      1. 使用批量脚本或命令,确认所有机器已开机并恢复网络连通性。
      2. 确认各机器上运行的进程是否已正常拉起。
      3. 确认yarn服务已启动,可观察对应ui界面观察。
  2. Kafka服务整体集群故障处理预案

    • 前置检查:
      检查kafka状态是都正常
      1. 进入zk部署的bin目录下,运行zkCli.sh,运行 ls/kafka/kafka/okers/ids
      2. 如果上述命令返回少于3个,说明有节点异常,执行get /kafka/kafka/brokers/ids/0,可以得到节点
      3. ip信息(id的编号从上边的返回结果取),将返回的id依次执行,跟kafka部署的ip对照,既可知道异常的kafka节点信息。
    • 故障影响:
      Kafka服务作为监控数据的缓存节点,是流式计算的重要一环,正常情况下是集群模式工作。集群崩溃后,数据无法写入缓存,导致监控数据中断,isd.barad数据无法显示。监控告警无法正常发出,严重影响运营。
    • 恢复步骤:
      1. 尽快恢复启动所有kafka服务器,并启动对应进程。
      2. 如有机器无法启动,需要寻找一台新的存储类型机器代替。
      3. 新机器的kafka=id要和旧机器一致,kafka-id信息可以从zk中获取。
      4. 异常的kafka进程恢复后,会自动进入kafka数据恢复。
      5. 登录kafka机器,执行kafka-topic-describe命令,获取实时状态。