集群事件

最近更新时间: 2026-06-30 15:06:00

功能介绍

集群事件中包含事件列表和事件策略。

事件列表：记录集群发生的关键变化事件或异常事件。
事件策略：⽀持根据业务情况自定义事件监控触发策略，已开启监控的事件可设置为集群巡检项。

查看事件列表

登录 TBDS Manager 管理平台，在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
在集群详情页中选择集群监控 > 集群事件 > 事件列表，可直接查看当前集群所有操作事件。严重程度说明如下：
- 致命：节点或服务的异常事件，人工干预处理，否则服务不可用，这类事件可能持续⼀段时间。
- 严重：暂时未造成服务或节点不可用问题，属于预警类，如果⼀直不处理会产生致命事件。
- ⼀般：记录集群发生的常规事件，⼀般无需特别处理。
单击当日触发次数列值可查看事件的触发记录，同时可查看事件记录相关指标、日志。

设置事件策略

登录 TBDS Manager 管理平台，在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
在集群详情页中选择集群监控 > 集群事件 > 事件策略，可以自定义设置事件监控触发策略。
事件配置列表包含：事件名、事件发现策略、严重程度（致命/严重/一般）、开启监控，⽀持修改和保存。
事件发现策略分两类：一类事件为系统固定策略事件，不支持⽤户修改；另⼀类事件会因客户业务标准的不同而变化，⽀持⽤户设置。
事件策略可自定义是否开启事件监控，已开启监控的事件才⽀持在集群巡检的巡检项中选择。部分事件默认开启，部分事件默认开启且不可关闭。

集群事件清单

类别	事件名称	事件含义	建议&措施	默认值	严重程度	允许关闭	默认开启
节点	节点磁盘 IO 错误	磁盘 IO 发生错误	更换磁盘		致命	是	是
节点	元数据库 Ping 失败	CDB 心跳未定时上报	人工排查		-	-	-
HDFS	HDFS 文件总数持续高于阈值	集群文件总数量 >= m，持续时间 t 秒（300<=t<=2592000）	调大 namenode 内存	m=50,000,000, t=1800	严重	是	否
	HDFS 总 block 数量持续高于阈值	集群 Blocks 总数量 >= m，持续时间 t 秒（300<=t<=2592000）	调大 namenode 内存或调大 block size	m=50,000,000, t=1800	严重	是	否
	HDFS 标记为 Dead 状态的数据节点数量持续高于阈值	标记为 Dead 状态的数据节点数量 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=1,t=1800	一般	是	否
	HDFS 存储空间使用率持续高于阈值	HDFS 存储空间使用率 >= m，持续时间 t 秒（300<=t<=2592000）	清理 HDFS 中的文件或对集群扩容	m=85, t=1800	严重	是	是
	NameNode 发生主备切换	NameNode 发生主备切换	排查 NameNode 切换的原因	-	严重	是	是
	NameNode RPC 请求处理延迟持续高于阈值	RPC 请求处理延迟 >= m毫秒，持续时间 t 秒（300<=t<=2592000）	人工排查	m=300, t=300	严重	是	否
	NameNode 当前连接数持续高于阈值	NameNode 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=2000, t=1800	一般	是	否
	NameNode 发生 full GC	NameNode 发生 full GC	参数调优	-	严重	是	是
	NameNode JVM 内存使用率持续高于阈值	NameNode JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）	调整 NameNode 堆内存大小	m=85, t=1800	严重	是	是
	DataNode RPC 请求处理延迟持续高于阈值	RPC 请求处理延迟 >= m毫秒，持续时间 t 秒（300<=t<=2592000）	人工排查	m=300, t=300	一般	是	否
	DataNode 当前连接数持续高于阈值	DataNode 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=2000, t=1800	一般	是	否
	DataNode 发生 full GC	NameNode 发生 full GC	参数调优	-	一般	是	否
	DataNode JVM 内存使用率持续高于阈值	NameNode JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）	调整 DataNode 堆内存大小	m=85, t=1800	一般	是	是
	HDFS 两个NameNode 服务状态均为 Standby	两个 NameNode 角色同时处于 Standby 状态大于 t 秒	人工排查	t=90	严重	是	是
	HDFS MissingBlocks数量持续高于阈值	集群 MissingBlocks 数量>=m，持续时间t秒(300<=t<=604800)	建议排查 HDFS 出现数据块损坏，使用命令 hadoop fsck / 检查 HDFS 文件分布的情况	m=1,t=1800	严重	是	是
	HDFS NameNode 进入安全模式	NameNode 进入安全模式(持续300s)	建议排查 HDFS 出现数据块损坏，使用命令 hadoop fsck / 检查 HDFS 文件分布的情况	-	严重	是	是
	HDFS NameNode 长时间未做 Checkpoint	HDFS NameNode 长时间未做 Checkpoint，持续时间m 小时	1. 检查 SecondaryNameNode(Standby NameNode) 的状态 2. 检查 HDFS 配置文件 hdfs-site.xml 中的 dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns 参数 3. 查看 HDFS 集群的日志信息	m=24	一般	是	是
	HDFS 小文件占比超过指定阈值	小文件比率>=50%,每天巡检一次	合并相同类型的小文件或定时清理掉小文件或用对象存储来存小文件	m=50	一般	是	是
YARN	集群当前丢失的 NodeManager 的个数持续高于阈值	集群当前丢失的 NodeManager 的个数 >= m，持续时间 t 秒（300<=t<=2592000）	检查 NM 进程状态，检查网络是否畅通	m=1, t=1800	一般	是	否
	Pending Containers 个数持续高于阈值	pending Containers 个数 >= m个，持续时间 t 秒（300<=t<=2592000）	合理指定 YARN 任务可用资源	m=90, t=1800	一般	是	否
	集群内存使用率持续高于阈值	内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）	集群扩容	m=85, t=1800	严重	是	是
	集群 CPU 使用率持续高于阈值	CPU 使用率 >= m，持续时间 t 秒（300<=t<=2592000）	集群扩容	m=85, t=1800	严重	是	是
	各队列中可用的 CPU 核数持续低于阈值	任意队列中可用 CPU 核数 <= m，持续时间 t 秒（300<=t<=2592000）	给队列分配更多资源	m=1, t=1800	一般	是	否
	各队列中可用的内存持续低于阈值	任意队列中可用内存 <= m，持续时间 t 秒（300<=t<=2592000）	给队列分配更多资源	m=1024, t=1800	一般	是	否
	ResourceManager 发生主备切换	ResourceManager 发生了主备切换	检查 RM 进程状态，查看 standby RM 日志查看主备切换原因	-	严重	是	是
	ResourceManager 发生 full GC	ResourceManager 发生了 full GC	参数调优	-	严重	是	是
	ResourceManager JVM 内存使用率持续高于阈值	RM JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）	调整 ResourceManager 堆内存大小	m=85, t=1800	严重	是	是
	NodeManager 发生 full GC	NodeManager 发生 full GC	参数调优	-	一般	是	否
	NodeManager 可用的内存持续低于阈值	单个 NM 可用内存持续 <= m，持续时间 t 秒（300<=t<=2592000）	调整 NodeManager 堆内存大小	m=1, t=1800	一般	是	否
	NodeManager JVM 内存使用率持续高于阈值	NM JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）	调整 NodeManager 堆内存大小	m=85, t=1800	一般	是	否
	YARN ResourceManager 无 active 状态	YARN ResourceManager 无 active 状态	人工排查	t=90	严重	是	是
	Yarn Application作业运行失败次数持续高于阈值	Yarn Application 作业运行失败	人工排查	m=1,t=300	一般	是	否
	YARN 当前不健康的 NodeManager 的个数持续高于阈值	Unhealthy NodeManager 个数>=m，持续时间t秒（300<=t<=2592000）	人工排查	m=1,t=1800	一般	是	否
	YARN application运行时长高于阈值	Yarn application 运行时间>=m(min)	人工排查	t=30min	一般	是	否
HBase	被拉黑的NodeManager阈值	App 被拉黑的节点数大于阈值	人工排查	m=0	一般	是	否
	集群 dead RS 数量持续高于阈值	集群 dead RegionServer 数量 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=1, t=60	一般	是	是
	集群每个 RS 平均 REGION 数持续高于阈值	集群每个 RegionServer 平均 region 数 >= m，持续时间 t 秒（300<=t<=2592000）	节点扩容或升配	m=300, t=1800	一般	是	是
	HMaster 发生 full GC	HMaster 发生了 full GC	参数调优	m=5, t=300	一般	是	是
	HMaster JVM 内存使用率持续高于阈值	HMaster JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）	调整 HMaster 堆内存大小	m=85, t=1800	严重	是	是
	HMaster 当前连接数持续高于阈值	HMaster 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=1000, t=1800	一般	是	否
	RegionServer 发生 full GC	RegionServer 发生 full GC	参数调优	m=5, t=300	严重	是	否
	RegionServer JVM 内存使用率持续高于阈值	RegionServer JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）	调整 RegionServer 堆内存大小	m=85, t=1800	一般	是	否
	RegionServer 当前 RPC 连接数持续高于阈值	RegionServer 当前 RPC 连接数 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=1000, t=1800	一般	是	否
	RegionServer Storefile 个数持续高于阈值	RegionServer StoreFile 个数 >= m，持续时间 t 秒（300<=t<=2592000）	建议执行 major compaction	m=50000, t=1800	一般	是	否
	HBASE 两个 HMaster 服务状态均为 Standby	两个 HMaster 角色同时处于 Standby 状态	人工排查	-	严重	是	是
	HMaster发生主备切换	HMaster发生主备切换	通过 HMaster 服务日志进行排查	-	严重	是	是
	HBaseThrift 发生full GC	HBaseThrift 发生 full GC	参数调优	m=5, t=300	严重	是	否
	HBaseThrift JVM内存使用率持续高于阈值	HBaseThrift JVM内存使用率>= m，持续时间 t 秒	调整 HBaseThrift 堆内存大小	m=85, t=1800	一般
Hive	HiveServer2 发生 full GC	HiveServer2 发生 full GC	参数调优	m=5, t=300	严重	是	是
	HiveServer2 JVM 内存使用率持续高于阈值	HiveServer2 JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）	调整 HiveServer2 堆内存大小	m=85, t=1800	严重	是	是
	HiveMetaStore 发生 full GC	HiveMetaStore 发生 full GC	参数调优	m=5, t=300	一般	是	是
	HiveWebHcat 发生 full GC	HiveWebHcat 发生 full GC	参数调优	m=5, t=300	一般	是	是
	HIVE SQL 编译时间高于阈值	HIVE SQL 编译时间高于阈值	人工排查	t=60	一般	是	否
ZooKeeper	ZooKeeper 连接数持续高于阈值	ZooKeeper 连接数 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=65535, t=1800	一般	是	否
	znode 节点数量持续高于阈值	znode 节点数 >= m，持续时间 t 秒（300<=t<=2592000）	人工排查	m=100000, t=1800	一般	是	否
	ZooKeeper 发生 leader 切换	ZooKeeper发生leader切换	通过 Zookeeper 服务日志进行排查	-	严重	是	是
集群	JVM OLD 区异常	JVM OLD 区异常	人工排查	old 区连续5分钟 80%或者 JVM 内存使用率达到90%	严重	是	是
	节点角色进程重启	节点角色进程重启	人工排查	/	一般	否	是
	服务角色健康状态异常	服务角色健康状态异常，持续时间t秒(180<=t<=604800)	服务角色健康状态连续分钟级不可用。处理方式：查看对应服务角色日志信息，根据日志处理。	t=300	严重	是	是
	服务角色健康状态超时	服务角色健康状态超时，持续时间t秒(180<=t<=604800)	服务角色健康状态连续分钟级超时。处理方式：查看对应服务角色日志信息，根据日志处理。	t=300	一般	是	否