集群事件

最近更新时间: 2026-03-13 09:03:00

功能介绍

集群事件中包含事件列表和事件策略。

  • 事件列表:记录集群发生的关键变化事件或异常事件。
  • 事件策略:⽀持根据业务情况自定义事件监控触发策略,已开启监控的事件可设置为集群巡检项。

查看事件列表

  1. 登录 TBDS Manager 管理平台,在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
  2. 在集群详情页中选择集群监控 > 集群事件 > 事件列表,可直接查看当前集群所有操作事件。严重程度说明如下:
    • 致命:节点或服务的异常事件,人工干预处理,否则服务不可用,这类事件可能持续⼀段时间。
    • 严重:暂时未造成服务或节点不可用问题,属于预警类,如果⼀直不处理会产生致命事件。
    • ⼀般:记录集群发生的常规事件,⼀般无需特别处理。
  3. 单击当日触发次数列值可查看事件的触发记录,同时可查看事件记录相关指标、日志。

设置事件策略

  1. 登录 TBDS Manager 管理平台,在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
  2. 在集群详情页中选择集群监控 > 集群事件 > 事件策略,可以自定义设置事件监控触发策略。
  3. 事件配置列表包含:事件名、事件发现策略、严重程度(致命/严重/一般)、开启监控,⽀持修改和保存。
  4. 事件发现策略分两类:一类事件为系统固定策略事件,不支持⽤户修改;另⼀类事件会因客户业务标准的不同而变化,⽀持⽤户设置。
  5. 事件策略可自定义是否开启事件监控,已开启监控的事件才⽀持在集群巡检的巡检项中选择。部分事件默认开启,部分事件默认开启且不可关闭。

集群事件清单

类别事件名称事件含义建议&措施默认值严重程度允许关闭默认开启
节点节点磁盘 IO 错误磁盘 IO 发生错误更换磁盘致命
元数据库 Ping 失败CDB 心跳未定时上报人工排查---
HDFSHDFS 文件总数持续高于阈值集群文件总数量 >= m,持续时间 t 秒(300<=t<=2592000)调大 namenode 内存m=50,000,000, t=1800严重
HDFS 总 block 数量持续高于阈值集群 Blocks 总数量 >= m,持续时间 t 秒(300<=t<=2592000)调大 namenode 内存或调大 block sizem=50,000,000, t=1800严重
HDFS 标记为 Dead 状态的数据节点数量持续高于阈值标记为 Dead 状态的数据节点数量 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=1,t=1800一般
HDFS 存储空间使用率持续高于阈值HDFS 存储空间使用率 >= m,持续时间 t 秒(300<=t<=2592000)清理 HDFS 中的文件或对集群扩容m=85, t=1800严重
NameNode 发生主备切换NameNode 发生主备切换排查 NameNode 切换的原因-严重
NameNode RPC 请求处理延迟持续高于阈值RPC 请求处理延迟 >= m毫秒,持续时间 t 秒(300<=t<=2592000)人工排查m=300, t=300严重
NameNode 当前连接数持续高于阈值NameNode 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=2000, t=1800一般
NameNode 发生 full GCNameNode 发生 full GC参数调优-严重
NameNode JVM 内存使用率持续高于阈值NameNode JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000)调整 NameNode 堆内存大小m=85, t=1800严重
DataNode RPC 请求处理延迟持续高于阈值RPC 请求处理延迟 >= m毫秒,持续时间 t 秒(300<=t<=2592000)人工排查m=300, t=300一般
DataNode 当前连接数持续高于阈值DataNode 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=2000, t=1800一般
DataNode 发生 full GCNameNode 发生 full GC参数调优-一般
DataNode JVM 内存使用率持续高于阈值NameNode JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000)调整 DataNode 堆内存大小m=85, t=1800一般
HDFS 两个NameNode 服务状态均为 Standby两个 NameNode 角色同时处于 Standby 状态大于 t 秒人工排查 t=90严重
HDFS MissingBlocks数量持续高于阈值集群 MissingBlocks 数量>=m,持续时间t秒(300<=t<=604800)建议排查 HDFS 出现数据块损坏,使用命令 hadoop fsck / 检查 HDFS 文件分布的情况m=1,t=1800严重
HDFS NameNode 进入安全模式NameNode 进入安全模式(持续300s)建议排查 HDFS 出现数据块损坏,使用命令 hadoop fsck / 检查 HDFS 文件分布的情况-严重
HDFS NameNode 长时间未做 CheckpointHDFS NameNode 长时间未做 Checkpoint,持续时间m 小时1. 检查 SecondaryNameNode(Standby NameNode) 的状态
2. 检查 HDFS 配置文件 hdfs-site.xml 中的 dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns 参数
3. 查看 HDFS 集群的日志信息
m=24一般
HDFS 小文件占比超过指定阈值小文件比率>=50%,每天巡检一次合并相同类型的小文件或定时清理掉小文件或用对象存储来存小文件m=50一般
YARN集群当前丢失的 NodeManager 的个数持续高于阈值集群当前丢失的 NodeManager 的个数 >= m,持续时间 t 秒(300<=t<=2592000)检查 NM 进程状态,检查网络是否畅通m=1, t=1800一般
Pending Containers 个数持续高于阈值pending Containers 个数 >= m个,持续时间 t 秒(300<=t<=2592000)合理指定 YARN 任务可用资源m=90, t=1800一般
集群内存使用率持续高于阈值内存使用率 >= m,持续时间 t 秒(300<=t<=2592000)集群扩容m=85, t=1800严重
集群 CPU 使用率持续高于阈值CPU 使用率 >= m,持续时间 t 秒(300<=t<=2592000)集群扩容m=85, t=1800严重
各队列中可用的 CPU 核数持续低于阈值任意队列中可用 CPU 核数 <= m,持续时间 t 秒(300<=t<=2592000)给队列分配更多资源m=1, t=1800一般
各队列中可用的内存持续低于阈值任意队列中可用内存 <= m,持续时间 t 秒(300<=t<=2592000)给队列分配更多资源m=1024, t=1800一般
ResourceManager 发生主备切换ResourceManager 发生了主备切换检查 RM 进程状态,查看 standby RM 日志查看主备切换原因-严重
ResourceManager 发生 full GCResourceManager 发生了 full GC参数调优-严重
ResourceManager JVM 内存使用率持续高于阈值RM JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000)调整 ResourceManager 堆内存大小m=85, t=1800严重
NodeManager 发生 full GCNodeManager 发生 full GC参数调优-一般
NodeManager 可用的内存持续低于阈值单个 NM 可用内存持续 <= m,持续时间 t 秒(300<=t<=2592000)调整 NodeManager 堆内存大小m=1, t=1800一般
NodeManager JVM 内存使用率持续高于阈值NM JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000)调整 NodeManager 堆内存大小m=85, t=1800一般
YARN ResourceManager 无 active 状态YARN ResourceManager 无 active 状态人工排查t=90严重
Yarn Application作业运行失败次数持续高于阈值Yarn Application 作业运行失败人工排查m=1,t=300一般
YARN 当前不健康的 NodeManager 的个数持续高于阈值Unhealthy NodeManager 个数>=m,持续时间t秒(300<=t<=2592000)人工排查m=1,t=1800一般
YARN application运行时长高于阈值Yarn application 运行时间>=m(min)人工排查t=30min一般
HBase被拉黑的NodeManager阈值App 被拉黑的节点数大于阈值人工排查m=0一般
集群 dead RS 数量持续高于阈值集群 dead RegionServer 数量 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=1, t=60一般
集群每个 RS 平均 REGION 数持续高于阈值集群每个 RegionServer 平均 region 数 >= m,持续时间 t 秒(300<=t<=2592000)节点扩容或升配m=300, t=1800一般
HMaster 发生 full GCHMaster 发生了 full GC参数调优m=5, t=300一般
HMaster JVM 内存使用率持续高于阈值HMaster JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000)调整 HMaster 堆内存大小m=85, t=1800严重
HMaster 当前连接数持续高于阈值HMaster 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=1000, t=1800一般
RegionServer 发生 full GCRegionServer 发生 full GC参数调优m=5, t=300严重
RegionServer JVM 内存使用率持续高于阈值RegionServer JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000)调整 RegionServer 堆内存大小m=85, t=1800一般
RegionServer 当前 RPC 连接数持续高于阈值RegionServer 当前 RPC 连接数 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=1000, t=1800一般
RegionServer Storefile 个数持续高于阈值RegionServer StoreFile 个数 >= m,持续时间 t 秒(300<=t<=2592000)建议执行 major compactionm=50000, t=1800一般
HBASE 两个 HMaster 服务状态均为 Standby两个 HMaster 角色同时处于 Standby 状态人工排查-严重
HMaster发生主备切换HMaster发生主备切换通过 HMaster 服务日志进行排查-严重
HBaseThrift 发生full GCHBaseThrift 发生 full GC参数调优m=5, t=300严重
HBaseThrift JVM内存使用率持续高于阈值HBaseThrift JVM内存使用率>= m,持续时间 t 秒调整 HBaseThrift 堆内存大小m=85, t=1800一般
HiveHiveServer2 发生 full GCHiveServer2 发生 full GC参数调优m=5, t=300严重
HiveServer2 JVM 内存使用率持续高于阈值HiveServer2 JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000)调整 HiveServer2 堆内存大小m=85, t=1800严重
HiveMetaStore 发生 full GCHiveMetaStore 发生 full GC参数调优m=5, t=300一般
HiveWebHcat 发生 full GCHiveWebHcat 发生 full GC参数调优m=5, t=300一般
HIVE SQL 编译时间高于阈值HIVE SQL 编译时间高于阈值人工排查t=60一般
ZooKeeperZooKeeper 连接数持续高于阈值ZooKeeper 连接数 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=65535, t=1800一般
znode 节点数量持续高于阈值znode 节点数 >= m,持续时间 t 秒(300<=t<=2592000)人工排查m=100000, t=1800一般
ZooKeeper 发生 leader 切换ZooKeeper发生leader切换通过 Zookeeper 服务日志进行排查-严重
集群JVM OLD 区异常JVM OLD 区异常人工排查
  1. old 区连续5分钟 80%或者
  2. JVM 内存使用率达到90%
严重
节点角色进程重启节点角色进程重启人工排查/一般
服务角色健康状态异常服务角色健康状态异常,持续时间t秒(180<=t<=604800)服务角色健康状态连续分钟级不可用。
处理方式:查看对应服务角色日志信息,根据日志处理。
t=300严重
服务角色健康状态超时服务角色健康状态超时,持续时间t秒(180<=t<=604800)服务角色健康状态连续分钟级超时。
处理方式:查看对应服务角色日志信息,根据日志处理。
t=300一般