监控场景最佳实践

最近更新时间: 2024-06-12 15:06:00

云监控提供了多种方式帮助用户判断资源异常,并通过多种渠道使异常信息第一时间触达用户。

  1. 定位异常

    1. 通过监控告警发现异常 监控告警是一云平台及时发现、主动提醒,用户被动发现异常情况的方式;保证了用户在任何情况下都能及时发现异常信息。用户可登录云平台控制台—云监控控制台,对关注的资源配置相应的告警策略。可参考配置告警策略。 已配置作为告警规则的重要性能指标与事件,在发生异常时,将及时通过告警通道中的多种方式及时触达用户及用户的系统。 配置了告警接收组的告警策略,将通过短信/邮件等方式及时触达用户;并支持重复告警、告警收敛等功能,帮助用户不错过重要告警的同时避免告警对用户的过度骚扰。 用户亦可通过配置告警通道中的回调接口功能,使异常告警信息触达用户的系统,对异常告警信息进行进一步的聚合与处理。

    2. 通过监控视图发现异常 通过监控视图定位异常,是用户根据性能指标的平均走势与历史数据主动定位异常的方式,需要用户主动发现异常。对于一些未配置告警、或告警规则不容易发现的异常状况,可在日常巡检中通过监控视图发现;相比于告警,可以帮助用户从全局定位资源的异常影响面。用户可通过将重要资源订阅到Dashboard的方式,并通过合理的图表设置突出各种场景下的资源异常信息。可参考配置监控视图。 对于个别实例,可通过订阅实例明细视图的方式,在Dashboard面板上便捷地进行实例件性能数据的走势对比。 对于资源集群,可通过订阅同个集群下的聚合数据,在Dashboard面板上便捷地查看集群整体监控视图,并与集群下单个实例的视图进行走势对比。可参考大批量监控场景 。 通过视图发现的异常点,均可通过视图的排序列表功能,定位到具体资源与异常影响面,进行进一步的异常定位排障。

  2. 异常排障 通过监控概览页定位异常对象 用户在日常巡检/接收到告警信息时,可登录登录云平台控制台,点击【云监控】>监控概览。

    1. 查看概览页—云服务健康状态模块,了解各个地域下资源异常状况 可通过异常信息概览功能,初步浏览近期异常。

    2. 单击异常对象数量,跳转至云产品监控页面。 云产品监控的列表页将自动在为用户筛选出异常的具体资源对象。

    3. 单击具体对象的ID,可跳转至对象的监控详情页面,提供用户回溯历史状况,辅助异常定位的详细信息。

    • 异常时间轴,提供用户查看该异常对象当前与历史信息的功能。通过历史告警与状态变更信息,辅助用户排查当前异常。

    • 资源性能监控数据,提供用户最全面的资源性能数据。可将同一指标当前数据与历史数据进行同比与环比,或对比不同指标在同个时段的数据变化进行排障。

  3. 通过 Dashboard 定位异常对象 登录云平台控制台,点击【云监控】>【Dashboard】>【Dashboard列表】。进入 Dashboard 对应的页面。

    1. 当监控图表中出现异常走势,单击展开实例列表按钮,曲线图下方将展开对应实例的排序列表。通过排序列表,可定位产生异常的具体对象。

    2. 单击排序列表中的对象名称,可跳转至对象的监控详情页面,提供用户回溯历史状况,辅助异常定位的详细信息。

    • 异常时间轴,提供用户查看该异常对象当前与历史信息的功能。通过历史告警与状态变更信息,辅助用户排查当前异常。

    • 资源性能监控数据,提供用户最全面的资源性能数据。可将同一指标当前数据与历史数据进行同比与环比,或对比不同指标在同个时段的数据变化进行排障。