监控组件离线常见原因及解决方案

最近更新时间: 2024-06-12 15:06:00

监控组件离线判断条件:

当一台云服务的监控组件持续5分钟未上报数据,平台认为该云服务器的监控组件已处于离线状态。

下边列举监控组件离线的TOP原因及对应的问题排查。

1、用户通过控制台或者命令行操作云服务器

云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。

用户通过云服务器控制台或者登陆云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。

问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。

2、云服务器高负载

云服务器 CPU 高负载,内存使用占满,带宽使用占满都会导致监控组件上报数据异常。

问题排查方式: 可以登录云服务器或者查看监控视图是否有存在 CPU 和内存,带宽使用达到 100% 的情况,如果达到 100%,可以根据实际情况来扩容服务。

3、云服务器内部 DNS 配置错误

云服务器内网DNS配置错误会导致监控组件无法上报数据。

问题排查方式:云平台的内网DNS配置可以参考 内网DNS访问和设置