监控组件离线常见原因及解决方案
最近更新时间: 2024-10-17 17:10:00
监控组件离线判断条件:
当一台云服务的监控组件持续5分钟未上报数据,平台认为该云服务器的监控组件已处于离线状态。
下边列举监控组件离线的TOP原因及对应的问题排查。
1、用户通过控制台或者命令行操作云服务器
云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。
用户通过云服务器控制台或者登陆云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。
问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。
2、云服务器高负载
云服务器 CPU 高负载,内存使用占满,带宽使用占满都会导致监控组件上报数据异常。
问题排查方式: 可以登录云服务器或者查看监控视图是否有存在 CPU 和内存,带宽使用达到 100%
的情况,如果达到 100%
,可以根据实际情况来扩容服务。
3、云服务器内部 DNS 配置错误
云服务器内网DNS配置错误会导致监控组件无法上报数据。
问题排查方式:云平台的内网DNS配置可以参考 内网DNS访问和设置。