功能介绍
集群概览展示集群运行状态的总体视图,可以获取集群运⾏状态、核心服务指标、核⼼节点指标以及节点负载 TOP10 情况。
操作步骤
- 登录 TBDS Manager 管理平台,在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
- 在集群详情页中选择集群概览,可直接查看当前集群总体情况。在集群概览页中,提供了四部分集群维度的监控视图,分别为集群总体情况、集群重要指标、集群部署状态、集群节点负载 TOP10。
- 集群总体情况:可直接查看当前集群状态是否异常、节点数量、元数据库是否在线以及组件健康状态。

- 集群重要指标:可直观查看当前集群 HDFS、YARN、CPU 总使用率、内存总使用率、磁盘总使用率以及网络总流量情况,且每个使用情况可单击右上角查看趋势,选择对应时间段进⾏查看。


- 集群部署状态:可直接查看当前集群部署节点类型中部署进程是否异常、缺失、非法和节点数量,以便于正确调整。

- 集群节点负载 TOP10:可查看核心指标下当前集群中节点负载趋势变化情况,可选择多个节点对同⼀指标的负载趋势进⾏比较。


以下对核心指标进行说明:
cpu 使用率

当集群各节点处理的读写任务超出节点 CPU 的负载能力时,该指标就会过高,CPU 使用率过高会导致集群节点处理能力下降,甚至宕机。您可以从以下几点解决平均 CPU 使用率过高的问题:
- 观察该指标是持续性较高,还是临时飙升。若是临时飙升,确定是否有临时性复杂任务正在执行。
- 若该指标持续较高,分析业务对集群的读写操作是否可以优化,降低读写频率,减小数据量,从而减轻节点负载。
- 对于节点配置无法满足业务吞吐量的情况,建议对集群节点进行纵向扩容,提高单节点的负载能力。
机器负载

机器负载过高时,建议降低集群负载或调大集群节点规格。
内存使用率

该值过高会导致集群节点 GC 频繁,甚至有出现 OOM。导致该值过高的原因,一般是节点上 ES 处理任务超出节点 JVM 的负载能力。您需要注意观察集群正在执行的任务,或调整集群的配置。
磁盘空间使用率

磁盘使用率过高会导致数据无法正常写入,解决方法:及时清理无用的索引。对集群进行扩容,增加单节点的磁盘容量或增加节点个数。
磁盘 IO 使用率

写入 QPS 过大,CPU、内存、磁盘使用率过高时,可能会造成集群写入拒绝率增加。一般地,是集群当前配置无法满足业务写操作需求。对于节点配置过低的场景,可以通过提高节点规格或降低写入操作次数来解决。对于磁盘使用率过高的情况,可以通过扩容集群磁盘或删除无用数据来解决。
网卡入/出流量
网卡入/出流量是对节点的网卡在特定时间段内接收和发送的数据量。监控这两个指标对管控网络流量和网络性能具有重要作用,可以提供关于网络带宽使用情况、故障排除、网络优化和安全监控方面的重要信息,帮助进行网络管控和保障网络性能、稳定性和安全性。
网卡入流量是指通过网络接口接收到的数据量,例如从外部网络或其他设备发送给本机的数据包。这可以是下载文件、接收电子邮件、接收网络请求等。
网卡出流量是指通过网络接口发送出去的数据量,例如将数据包发送到外部网络或其他设备。这可以是上传文件、发送电子邮件、响应网络请求等。出流量也通常以比特或字节为单位进行计量。





