文档首页

租户端运维工具云监控（BARAD）运维手册

日常巡检

最近更新时间: 2025-10-11 18:10:00

2. 检查监控控制台登录租户端控制台，查看监控是否正常。具体操作可参考《租户端操作手册》。

前提条件：已获取zookeeper部署机器ip和登录密码。
操作步骤：登录所有ZK节点，找到zookeeper安装目录（默认/usr/local/services/zookeeper），进入bin目录，运行./zkServer.sh status。所有节点无错误输出，除了follower外，有1个leader，则zk集群是运行正常的。进入bin目录下，运行./zkCli.sh，运行 ls / ，查看目录信息。
检查结果：
- 正常：返回的目录中有 /storm110，/kafka ， /kfkSpout。
- 异常：返回的目录中缺失 /storm110，/kafka ， /kfkSpout。缺失目录则标明对应的组件存在异常（以上目录对应的组件依次为 storm，kafka，storm）。
异常处理：若zookeeper进程不存在，则进入bin目录，运行sh zkServer.sh start将zookeeper重新拉起。
运维经验： Zookeeper部署节点需要加上crontab，当进程挂掉后自动拉起。

前提条件：已获取zk节点和kafka节点登录信息。
操作步骤：进入zk部署的bin目录下，运行zkCli.sh，运行 ls kafka/kafka/brokers/ids。
检查结果：
- 如果返回[1, 2, 3]或[0,1,2] 则表示有3台kafka节点在运行中，如果缺少，有可能节点有异常，但不一定影响服务，但仍需尽快修复。
- 如果上述命令返回少于3个，说明有节点异常，执行get kafka/kafka/brokers/ids/0，可以得到节点ip信息（id的编号从上边的返回结果取），将返回的id依次执行，跟kafka部署的ip对照，既可知道异常的kafka节点信息。
异常处理：登录异常的kafka节点，ps -ef|grep kafka查看进程是否存在，如不存在，进入bin目录，执行sh kafka-server-start.sh则重新拉起。
运维经验： Kafka节点部署机器应加上crontab，如进程挂掉则自动拉起。

操作步骤： curles1.barad:9200/_cat/health?v，查看返回的status是否为green。 curles1.barad:5100/search/clusters, 查看返回结果中当前集群的磁盘使用量。
检查结果：
- 正常：集群状态为green, 当前集群的disk_used / capacity.disk <= 0.8。
- 异常：集群状态为red或yellow，当前集群的disk_used /capacity.disk > 0.8。
异常处理：集群状态为red和yellow可能是es的node故障，需要登录node查看进程是否挂掉，如果挂掉需要执行./bin/elasticsearch重新拉起。集群disk_used /capacity.disk > 0.8，表明集群容量不足，需要进行扩容。
运维经验：将Elasticsearch节点的磁盘使用率监控起来。

操作步骤：登录机器yarn访问入口，如10.19.0.34:8088 可以看到状态，运行时间，启动时间等查看数据流向：
检查结果：
- 正常：页面无报错，Status running ，数据流向有数据。
- 异常：页面有报错，或 Status 不是 running。
异常处理：如页面有报错，查看页面日志。如数据流向Status 不是 running ，重新提交任务。在master节点进入到barad-skywalker ,cd /usr/local/services/barad-skywalker/job,执行 sh run-job.sh
运维经验： /usr/local/services/barad-skywalker/job 目录下放了检查、创建、停止 flink任务的脚本。