功能介绍
集群事件中包含事件列表和事件策略。
- 事件列表:记录集群发生的关键变化事件或异常事件。
- 事件策略:⽀持根据业务情况自定义事件监控触发策略,已开启监控的事件可设置为集群巡检项。
查看事件列表
- 登录 TBDS Manager 管理平台,在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
- 在集群详情页中选择集群监控 > 集群事件 > 事件列表,可直接查看当前集群所有操作事件。严重程度说明如下:
- 致命:节点或服务的异常事件,人工干预处理,否则服务不可用,这类事件可能持续⼀段时间。
- 严重:暂时未造成服务或节点不可用问题,属于预警类,如果⼀直不处理会产生致命事件。
- ⼀般:记录集群发生的常规事件,⼀般无需特别处理。
- 单击当日触发次数列值可查看事件的触发记录,同时可查看事件记录相关指标、日志。
设置事件策略
- 登录 TBDS Manager 管理平台,在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
- 在集群详情页中选择集群监控 > 集群事件 > 事件策略,可以自定义设置事件监控触发策略。
- 事件配置列表包含:事件名、事件发现策略、严重程度(致命/严重/一般)、开启监控,⽀持修改和保存。
- 事件发现策略分两类:一类事件为系统固定策略事件,不支持⽤户修改;另⼀类事件会因客户业务标准的不同而变化,⽀持⽤户设置。
- 事件策略可自定义是否开启事件监控,已开启监控的事件才⽀持在集群巡检的巡检项中选择。部分事件默认开启,部分事件默认开启且不可关闭。
集群事件清单
| 类别 | 事件名称 | 事件含义 | 建议&措施 | 默认值 | 严重程度 | 允许关闭 | 默认开启 |
|---|---|---|---|---|---|---|---|
| 节点 | 节点磁盘 IO 错误 | 磁盘 IO 发生错误 | 更换磁盘 | 致命 | 是 | 是 | |
| 元数据库 Ping 失败 | CDB 心跳未定时上报 | 人工排查 | - | - | - | ||
| HDFS | HDFS 文件总数持续高于阈值 | 集群文件总数量 >= m,持续时间 t 秒(300<=t<=2592000) | 调大 namenode 内存 | m=50,000,000, t=1800 | 严重 | 是 | 否 |
| HDFS 总 block 数量持续高于阈值 | 集群 Blocks 总数量 >= m,持续时间 t 秒(300<=t<=2592000) | 调大 namenode 内存或调大 block size | m=50,000,000, t=1800 | 严重 | 是 | 否 | |
| HDFS 标记为 Dead 状态的数据节点数量持续高于阈值 | 标记为 Dead 状态的数据节点数量 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=1,t=1800 | 一般 | 是 | 否 | |
| HDFS 存储空间使用率持续高于阈值 | HDFS 存储空间使用率 >= m,持续时间 t 秒(300<=t<=2592000) | 清理 HDFS 中的文件或对集群扩容 | m=85, t=1800 | 严重 | 是 | 是 | |
| NameNode 发生主备切换 | NameNode 发生主备切换 | 排查 NameNode 切换的原因 | - | 严重 | 是 | 是 | |
| NameNode RPC 请求处理延迟持续高于阈值 | RPC 请求处理延迟 >= m毫秒,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=300, t=300 | 严重 | 是 | 否 | |
| NameNode 当前连接数持续高于阈值 | NameNode 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=2000, t=1800 | 一般 | 是 | 否 | |
| NameNode 发生 full GC | NameNode 发生 full GC | 参数调优 | - | 严重 | 是 | 是 | |
| NameNode JVM 内存使用率持续高于阈值 | NameNode JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 NameNode 堆内存大小 | m=85, t=1800 | 严重 | 是 | 是 | |
| DataNode RPC 请求处理延迟持续高于阈值 | RPC 请求处理延迟 >= m毫秒,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=300, t=300 | 一般 | 是 | 否 | |
| DataNode 当前连接数持续高于阈值 | DataNode 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=2000, t=1800 | 一般 | 是 | 否 | |
| DataNode 发生 full GC | NameNode 发生 full GC | 参数调优 | - | 一般 | 是 | 否 | |
| DataNode JVM 内存使用率持续高于阈值 | NameNode JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 DataNode 堆内存大小 | m=85, t=1800 | 一般 | 是 | 是 | |
| HDFS 两个NameNode 服务状态均为 Standby | 两个 NameNode 角色同时处于 Standby 状态大于 t 秒 | 人工排查 | t=90 | 严重 | 是 | 是 | |
| HDFS MissingBlocks数量持续高于阈值 | 集群 MissingBlocks 数量>=m,持续时间t秒(300<=t<=604800) | 建议排查 HDFS 出现数据块损坏,使用命令 hadoop fsck / 检查 HDFS 文件分布的情况 | m=1,t=1800 | 严重 | 是 | 是 | |
| HDFS NameNode 进入安全模式 | NameNode 进入安全模式(持续300s) | 建议排查 HDFS 出现数据块损坏,使用命令 hadoop fsck / 检查 HDFS 文件分布的情况 | - | 严重 | 是 | 是 | |
| HDFS NameNode 长时间未做 Checkpoint | HDFS NameNode 长时间未做 Checkpoint,持续时间m 小时 | 1. 检查 SecondaryNameNode(Standby NameNode) 的状态 2. 检查 HDFS 配置文件 hdfs-site.xml 中的 dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns 参数 3. 查看 HDFS 集群的日志信息 | m=24 | 一般 | 是 | 是 | |
| HDFS 小文件占比超过指定阈值 | 小文件比率>=50%,每天巡检一次 | 合并相同类型的小文件或定时清理掉小文件或用对象存储来存小文件 | m=50 | 一般 | 是 | 是 | |
| YARN | 集群当前丢失的 NodeManager 的个数持续高于阈值 | 集群当前丢失的 NodeManager 的个数 >= m,持续时间 t 秒(300<=t<=2592000) | 检查 NM 进程状态,检查网络是否畅通 | m=1, t=1800 | 一般 | 是 | 否 |
| Pending Containers 个数持续高于阈值 | pending Containers 个数 >= m个,持续时间 t 秒(300<=t<=2592000) | 合理指定 YARN 任务可用资源 | m=90, t=1800 | 一般 | 是 | 否 | |
| 集群内存使用率持续高于阈值 | 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000) | 集群扩容 | m=85, t=1800 | 严重 | 是 | 是 | |
| 集群 CPU 使用率持续高于阈值 | CPU 使用率 >= m,持续时间 t 秒(300<=t<=2592000) | 集群扩容 | m=85, t=1800 | 严重 | 是 | 是 | |
| 各队列中可用的 CPU 核数持续低于阈值 | 任意队列中可用 CPU 核数 <= m,持续时间 t 秒(300<=t<=2592000) | 给队列分配更多资源 | m=1, t=1800 | 一般 | 是 | 否 | |
| 各队列中可用的内存持续低于阈值 | 任意队列中可用内存 <= m,持续时间 t 秒(300<=t<=2592000) | 给队列分配更多资源 | m=1024, t=1800 | 一般 | 是 | 否 | |
| ResourceManager 发生主备切换 | ResourceManager 发生了主备切换 | 检查 RM 进程状态,查看 standby RM 日志查看主备切换原因 | - | 严重 | 是 | 是 | |
| ResourceManager 发生 full GC | ResourceManager 发生了 full GC | 参数调优 | - | 严重 | 是 | 是 | |
| ResourceManager JVM 内存使用率持续高于阈值 | RM JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 ResourceManager 堆内存大小 | m=85, t=1800 | 严重 | 是 | 是 | |
| NodeManager 发生 full GC | NodeManager 发生 full GC | 参数调优 | - | 一般 | 是 | 否 | |
| NodeManager 可用的内存持续低于阈值 | 单个 NM 可用内存持续 <= m,持续时间 t 秒(300<=t<=2592000) | 调整 NodeManager 堆内存大小 | m=1, t=1800 | 一般 | 是 | 否 | |
| NodeManager JVM 内存使用率持续高于阈值 | NM JVM 内存使用率持续 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 NodeManager 堆内存大小 | m=85, t=1800 | 一般 | 是 | 否 | |
| YARN ResourceManager 无 active 状态 | YARN ResourceManager 无 active 状态 | 人工排查 | t=90 | 严重 | 是 | 是 | |
| Yarn Application作业运行失败次数持续高于阈值 | Yarn Application 作业运行失败 | 人工排查 | m=1,t=300 | 一般 | 是 | 否 | |
| YARN 当前不健康的 NodeManager 的个数持续高于阈值 | Unhealthy NodeManager 个数>=m,持续时间t秒(300<=t<=2592000) | 人工排查 | m=1,t=1800 | 一般 | 是 | 否 | |
| YARN application运行时长高于阈值 | Yarn application 运行时间>=m(min) | 人工排查 | t=30min | 一般 | 是 | 否 | |
| HBase | 被拉黑的NodeManager阈值 | App 被拉黑的节点数大于阈值 | 人工排查 | m=0 | 一般 | 是 | 否 |
| 集群 dead RS 数量持续高于阈值 | 集群 dead RegionServer 数量 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=1, t=60 | 一般 | 是 | 是 | |
| 集群每个 RS 平均 REGION 数持续高于阈值 | 集群每个 RegionServer 平均 region 数 >= m,持续时间 t 秒(300<=t<=2592000) | 节点扩容或升配 | m=300, t=1800 | 一般 | 是 | 是 | |
| HMaster 发生 full GC | HMaster 发生了 full GC | 参数调优 | m=5, t=300 | 一般 | 是 | 是 | |
| HMaster JVM 内存使用率持续高于阈值 | HMaster JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 HMaster 堆内存大小 | m=85, t=1800 | 严重 | 是 | 是 | |
| HMaster 当前连接数持续高于阈值 | HMaster 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=1000, t=1800 | 一般 | 是 | 否 | |
| RegionServer 发生 full GC | RegionServer 发生 full GC | 参数调优 | m=5, t=300 | 严重 | 是 | 否 | |
| RegionServer JVM 内存使用率持续高于阈值 | RegionServer JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 RegionServer 堆内存大小 | m=85, t=1800 | 一般 | 是 | 否 | |
| RegionServer 当前 RPC 连接数持续高于阈值 | RegionServer 当前 RPC 连接数 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=1000, t=1800 | 一般 | 是 | 否 | |
| RegionServer Storefile 个数持续高于阈值 | RegionServer StoreFile 个数 >= m,持续时间 t 秒(300<=t<=2592000) | 建议执行 major compaction | m=50000, t=1800 | 一般 | 是 | 否 | |
| HBASE 两个 HMaster 服务状态均为 Standby | 两个 HMaster 角色同时处于 Standby 状态 | 人工排查 | - | 严重 | 是 | 是 | |
| HMaster发生主备切换 | HMaster发生主备切换 | 通过 HMaster 服务日志进行排查 | - | 严重 | 是 | 是 | |
| HBaseThrift 发生full GC | HBaseThrift 发生 full GC | 参数调优 | m=5, t=300 | 严重 | 是 | 否 | |
| HBaseThrift JVM内存使用率持续高于阈值 | HBaseThrift JVM内存使用率>= m,持续时间 t 秒 | 调整 HBaseThrift 堆内存大小 | m=85, t=1800 | 一般 | |||
| Hive | HiveServer2 发生 full GC | HiveServer2 发生 full GC | 参数调优 | m=5, t=300 | 严重 | 是 | 是 |
| HiveServer2 JVM 内存使用率持续高于阈值 | HiveServer2 JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 HiveServer2 堆内存大小 | m=85, t=1800 | 严重 | 是 | 是 | |
| HiveMetaStore 发生 full GC | HiveMetaStore 发生 full GC | 参数调优 | m=5, t=300 | 一般 | 是 | 是 | |
| HiveWebHcat 发生 full GC | HiveWebHcat 发生 full GC | 参数调优 | m=5, t=300 | 一般 | 是 | 是 | |
| HIVE SQL 编译时间高于阈值 | HIVE SQL 编译时间高于阈值 | 人工排查 | t=60 | 一般 | 是 | 否 | |
| ZooKeeper | ZooKeeper 连接数持续高于阈值 | ZooKeeper 连接数 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=65535, t=1800 | 一般 | 是 | 否 |
| znode 节点数量持续高于阈值 | znode 节点数 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 | m=100000, t=1800 | 一般 | 是 | 否 | |
| ZooKeeper 发生 leader 切换 | ZooKeeper发生leader切换 | 通过 Zookeeper 服务日志进行排查 | - | 严重 | 是 | 是 | |
| 集群 | JVM OLD 区异常 | JVM OLD 区异常 | 人工排查 |
| 严重 | 是 | 是 |
| 节点角色进程重启 | 节点角色进程重启 | 人工排查 | / | 一般 | 否 | 是 | |
| 服务角色健康状态异常 | 服务角色健康状态异常,持续时间t秒(180<=t<=604800) | 服务角色健康状态连续分钟级不可用。 处理方式:查看对应服务角色日志信息,根据日志处理。 | t=300 | 严重 | 是 | 是 | |
| 服务角色健康状态超时 | 服务角色健康状态超时,持续时间t秒(180<=t<=604800) | 服务角色健康状态连续分钟级超时。 处理方式:查看对应服务角色日志信息,根据日志处理。 | t=300 | 一般 | 是 | 否 |