集群巡检

最近更新时间: 2026-03-13 09:03:00

功能介绍

  1. 经典集群可即时或定时(按天、按周)根据已选的巡检项对集群的节点和服务进行健康检查,以便周期性掌握集群健康情况,及时对异常风险点进行处理。
  2. 平台提供默认巡检项,用户可按需勾选需要增加的巡检项目。
  3. 每次巡检任务完成后生成 PDF 格式的巡检报告,用户可以下载或删除巡检报告。

    说明:

    • 单个集群仅可配置一个定期巡检任务。
    • 服务功能类巡检会消耗集群性能,不推荐在业务高峰期进行有耗损的巡检。
    • 每个集群最多可保留200份巡检报告,超过保存的最大限额将会从最早期报告开始滚动删除。
    • 定时巡检任务正在执行中时,不能修改保存配置。

巡检范围

5315版本支持的巡检范围包括:

  1. 集群类型:支持Hadoop 类型集群。
  2. 服务类型:支持 HDFS、YARN、HBase、Hive、Zookeeper组件。
  3. 预置巡检项:
    维度服务类型巡检项
    集群-JVM OLD区异常
    节点角色进程重启
    自动伸缩策略过期
    服务角色健康状态异常
    自动伸缩策略执行失败
    自动伸缩策略未触发
    自动伸缩策略执行超时
    自动伸缩扩容部分成功
    引导脚本执行失败
    进程被OOM killer kill
    节点-CPU利用率连续高于阈值
    CPU IOwait平均值高于阈值
    CPU1分钟负载连续高于阈值
    内存使用率持续高于阈值
    系统进程总数连续高于阈值
    元数据库异常
    单盘INODES使用率持续高于阈值
    单盘I/O设备利用率持续高于阈值
    单盘空间使用率持续高于阈值
    子机UTC时间和NTP时间差值高于阈值
    节点磁盘I/O异常
    节点故障
    故障节点自动补偿
    实例硬盘异常待授权
    实例运行异常待授权
    子机nvme设备error
    机器重启
    内存OOM
    内核故障
    磁盘只读
    ping不可达
    组件HDFSHDFS存储空间使用率持续高于阈值
    NameNode 发生主备切换
    NameNode 发生Full GC
    NameNode JVM内存使用率持续高于阈值
    DataNode JVM内存使用率持续高于阈值
    HDFS 两个NameNode服务状态均为Standby
    HDFS NameNode进入安全模式
    HDFS MissingBlocks数量持续高于阈值
    HDFS NameNode长时间未做 Checkpoint
    YARNResourceManager 发生主备切换
    ResourceManager 发生Full GC
    ResourceManager JVM内存使用率持续高于阈值
    YARN ResourceManager无active状态
    HBase集群处于RIT Region个数持续高于阈值
    集群dead RS数量持续高于阈值
    集群每个RS平均REGION数持续高于阈值
    HMaster 发生Full GC
    HMaster JVM内存使用率持续高于阈值
    HBASE 两个HMaster服务状态均为Standby
    HMaster 发生主备切换
    HiveHiveServer2 Full GC
    HiveServer2 JVM内存使用率持续高于阈值
    HiveMetaStore Full GC
    HiveWebHcat Full GC
    ZKZookeeper 发生Leader切换

操作步骤

  1. 登录 TBDS Manager,在集群列表中单击对应的集群名称进入集群详情页。
  2. 在集群详情页中选择集群监控 > 集群巡检可根据当前集群的节点和服务进行健康检查,用户可单击“即时巡检”进行巡检;也可单击“定时巡检设置”,配置定时巡检任务。

即时巡检

即时巡检是检查集群从某个时刻到当前时间节点和服务的健康状态并生成巡检报告。

定时巡检

  1. 定期巡检策略开启后,系统将自动检测每个巡检周期内集群节点和服务的健康状态并生成巡检报告。每个集群可配置一个定期巡检策略,配置更新后将覆盖历史。

    1. 巡检项:默认支持所有已开启的事件监控策略,若需调整巡检项可参考 集群事件 进行设置。初始巡检项系统默认勾选所有已开启监控的事件,修改后第二次设置巡检项,默认会勾选上一次已选择的巡检项。
    2. 巡检报告:每次的即时巡检/定时巡检任务结束后,会自动生成一份巡检报告,该报告支持在线预览、下载、删除。