集群概览

最近更新时间: 2026-06-30 15:06:00

功能介绍

集群概览展示集群运行状态的总体视图，可以获取集群运⾏状态、核心服务指标、核⼼节点指标以及节点负载 TOP10 情况。

操作步骤

登录 TBDS Manager 管理平台，在集群列表中单击对应的集群 ID/名称进⼊集群详情页。
在集群详情页中选择集群概览，可直接查看当前集群总体情况。在集群概览页中，提供了四部分集群维度的监控视图，分别为集群总体情况、集群重要指标、集群部署状态、集群节点负载 TOP10。

集群总体情况：可直接查看当前集群状态是否异常、节点数量、元数据库是否在线以及组件健康状态。
集群重要指标：可直观查看当前集群 HDFS、YARN、CPU 总使用率、内存总使用率、磁盘总使用率以及网络总流量情况，且每个使用情况可单击右上角查看趋势，选择对应时间段进⾏查看。
集群部署状态：可直接查看当前集群部署节点类型中部署进程是否异常、缺失、非法和节点数量，以便于正确调整。
集群节点负载 TOP10：可查看核心指标下当前集群中节点负载趋势变化情况，可选择多个节点对同⼀指标的负载趋势进⾏比较。

以下对核心指标进行说明：

cpu 使用率

当集群各节点处理的读写任务超出节点 CPU 的负载能力时，该指标就会过高，CPU 使用率过高会导致集群节点处理能力下降，甚至宕机。您可以从以下几点解决平均 CPU 使用率过高的问题：

观察该指标是持续性较高，还是临时飙升。若是临时飙升，确定是否有临时性复杂任务正在执行。
若该指标持续较高，分析业务对集群的读写操作是否可以优化，降低读写频率，减小数据量，从而减轻节点负载。
对于节点配置无法满足业务吞吐量的情况，建议对集群节点进行纵向扩容，提高单节点的负载能力。

机器负载

机器负载过高时，建议降低集群负载或调大集群节点规格。

内存使用率

该值过高会导致集群节点 GC 频繁，甚至有出现 OOM。导致该值过高的原因，一般是节点上 ES 处理任务超出节点 JVM 的负载能力。您需要注意观察集群正在执行的任务，或调整集群的配置。

磁盘空间使用率

磁盘使用率过高会导致数据无法正常写入，解决方法：及时清理无用的索引。对集群进行扩容，增加单节点的磁盘容量或增加节点个数。

磁盘 IO 使用率

写入 QPS 过大，CPU、内存、磁盘使用率过高时，可能会造成集群写入拒绝率增加。一般地，是集群当前配置无法满足业务写操作需求。对于节点配置过低的场景，可以通过提高节点规格或降低写入操作次数来解决。对于磁盘使用率过高的情况，可以通过扩容集群磁盘或删除无用数据来解决。

网卡入/出流量

网卡入/出流量是对节点的网卡在特定时间段内接收和发送的数据量。监控这两个指标对管控网络流量和网络性能具有重要作用，可以提供关于网络带宽使用情况、故障排除、网络优化和安全监控方面的重要信息，帮助进行网络管控和保障网络性能、稳定性和安全性。

网卡入流量是指通过网络接口接收到的数据量，例如从外部网络或其他设备发送给本机的数据包。这可以是下载文件、接收电子邮件、接收网络请求等。

网卡出流量是指通过网络接口发送出去的数据量，例如将数据包发送到外部网络或其他设备。这可以是上传文件、发送电子邮件、响应网络请求等。出流量也通常以比特或字节为单位进行计量。