集群巡检

最近更新时间: 2026-06-30 15:06:00

功能介绍

经典集群可即时或定时（按天、按周）根据已选的巡检项对集群的节点和服务进行健康检查，以便周期性掌握集群健康情况，及时对异常风险点进行处理。
平台提供默认巡检项，用户可按需勾选需要增加的巡检项目。
每次巡检任务完成后生成 PDF 格式的巡检报告，用户可以下载或删除巡检报告。
说明：
- 单个集群仅可配置一个定期巡检任务。
- 服务功能类巡检会消耗集群性能，不推荐在业务高峰期进行有耗损的巡检。
- 每个集群最多可保留200份巡检报告，超过保存的最大限额将会从最早期报告开始滚动删除。
- 定时巡检任务正在执行中时，不能修改保存配置。

巡检范围

5315版本支持的巡检范围包括：

集群类型：支持Hadoop 类型集群。
服务类型：支持 HDFS、YARN、HBase、Hive、Zookeeper组件。

预置巡检项：

维度	服务类型	巡检项
集群	-	JVM OLD区异常
		节点角色进程重启
		自动伸缩策略过期
		服务角色健康状态异常
		自动伸缩策略执行失败
		自动伸缩策略未触发
		自动伸缩策略执行超时
		自动伸缩扩容部分成功
		引导脚本执行失败
		进程被OOM killer kill
节点	-	CPU利用率连续高于阈值
		CPU IOwait平均值高于阈值
		CPU1分钟负载连续高于阈值
		内存使用率持续高于阈值
		系统进程总数连续高于阈值
		元数据库异常
		单盘INODES使用率持续高于阈值
		单盘I/O设备利用率持续高于阈值
		单盘空间使用率持续高于阈值
		子机UTC时间和NTP时间差值高于阈值
		节点磁盘I/O异常
		节点故障
		故障节点自动补偿
		实例硬盘异常待授权
		实例运行异常待授权
		子机nvme设备error
		机器重启
		内存OOM
		内核故障
		磁盘只读
		ping不可达
组件	HDFS	HDFS存储空间使用率持续高于阈值
		NameNode 发生主备切换
		NameNode 发生Full GC
		NameNode JVM内存使用率持续高于阈值
		DataNode JVM内存使用率持续高于阈值
		HDFS 两个NameNode服务状态均为Standby
		HDFS NameNode进入安全模式
		HDFS MissingBlocks数量持续高于阈值
		HDFS NameNode长时间未做 Checkpoint
	YARN	ResourceManager 发生主备切换
		ResourceManager 发生Full GC
		ResourceManager JVM内存使用率持续高于阈值
		YARN ResourceManager无active状态
	HBase	集群处于RIT Region个数持续高于阈值
		集群dead RS数量持续高于阈值
		集群每个RS平均REGION数持续高于阈值
		HMaster 发生Full GC
		HMaster JVM内存使用率持续高于阈值
		HBASE 两个HMaster服务状态均为Standby
		HMaster 发生主备切换
	Hive	HiveServer2 Full GC
		HiveServer2 JVM内存使用率持续高于阈值
		HiveMetaStore Full GC
		HiveWebHcat Full GC
	ZK	Zookeeper 发生Leader切换

操作步骤

登录 TBDS Manager，在集群列表中单击对应的集群名称进入集群详情页。
在集群详情页中选择集群监控 > 集群巡检可根据当前集群的节点和服务进行健康检查，用户可单击“即时巡检”进行巡检；也可单击“定时巡检设置”，配置定时巡检任务。

即时巡检

即时巡检是检查集群从某个时刻到当前时间节点和服务的健康状态并生成巡检报告。

定时巡检

定期巡检策略开启后，系统将自动检测每个巡检周期内集群节点和服务的健康状态并生成巡检报告。每个集群可配置一个定期巡检策略，配置更新后将覆盖历史。
1. 巡检项：默认支持所有已开启的事件监控策略，若需调整巡检项可参考集群事件进行设置。初始巡检项系统默认勾选所有已开启监控的事件，修改后第二次设置巡检项，默认会勾选上一次已选择的巡检项。
2. 巡检报告：每次的即时巡检/定时巡检任务结束后，会自动生成一份巡检报告，该报告支持在线预览、下载、删除。