告警配置

最近更新时间: 2024-09-05 15:09:00

操作场景

云平台默认为所有用户提供云监控功能,无需用户手动开通。用户在使用了云平台某个产品后,云监控才可以开始收集监控数据。

TSF 支持监控您账户下创建的资源,包括服务、部署组、接口等等,帮助您实时掌握资源状态。您可以为监控指标配置告警规则,当监控指标达到设定的报警阈值时,云监控可以通过邮件、短信、微信、电话等方式通知您,帮助您及时应对异常情况。

告警类别

TSF 当前支持不同的告警形式配置:部署组告警,服务告警,接口告警,日志告警,应用仓库容量告警和实例告警。

TSF 当前支持的告警类别以及作用如下:

告警类别 作用对象 作用
部署组告警 部署组 指标告警:用户可以根据部署组的节点健康率配置告警。举例:当部署组中存在三个节点,希望当部署组中只保留一个节点存活的时候即发出告警,则需要配置部署组健康率在统计周期1分钟内健康率小于34%,并持续一个周期发出告警。
  • 事件告警:用户可以对弹性伸缩触发扩缩容/部署组异常事件进行告警配置。如想实现当某个部署组弹性伸缩触发扩容触发告警则配置事件告警,事件内容为弹性伸缩规则触发扩容。
  • 服务告警 微服务 指标告警:用户可以配置指标告警来针对微服务的接收请求平均耗时、接收请求失败率、接收请求量、http响应码4xx、http响应码5xx进行告警配置。 事件告警:用户可以对服务离线和服务熔断进行告警配置。如想实现当某个微服务离线则触发告警则配置事件告警,事件内容为服务离线。
    接口告警 服务接口 监控服务接口请求量、请求错误率、请求平均耗时指标。当微服务接口请求数、请求错误率、请求平均耗时达到一定阈值则触发告警。
    日志告警 部署组以及部署组运行日志中的关键词 统计日志中的关键词出现频率,当某些日志关键词出现频率超过一定限度则触发告警。例如,用户可以配置日志中 “error”等关键词出现的频率一分钟内出现10次即告警。
    应用仓库容量告警 应用仓库 当用户应用仓库已用容量/总容量比例高于80%,触发告警。
    实例告警 服务实例 统计实例的 FULL_GC 事件次数,当数量达到一定阈值后则触发告警。

    操作步骤

    注意:

    当前云产品的告警统一收归到云监控控制台进行配置。日志告警的配置请参见 [日志告警]。

    配置告警规则

    创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对,从而判断是否需要触发相关通知。当 TSF 状态改变而导致告警触发后,您可以及时进行相应的预防或补救措施,合理地创建告警能帮助您提高应用程序的健壮性和可靠性。

    1. 登录 【云监控控制台】。

    2. 在告警策略页面,选择好策略类型和要设置告警的实例,设置好告警规则和告警通知模板。

      • 策略类型:选择【TSF】。

      • 告警对象:选择需要配置告警策略的 TSF 资源。

      • 触发条件:支持【选择模板】和【手动配置】,默认选择手动配置,手动配置参见以下说明,新建模板参见 [新建触发条件模版] 。

    注意:

    • 指标:例如“部署组节点健康率”,选择统计粒度为1分钟,则在1分钟内,部署组节点健康率连续N个数据点超过阈值,就会出发告警。
    • 告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
    • 通知模板:选择通知模版,也可以新建通知模版,设置告警接收对象和接收渠道。
    1. 单击【完成】,完成配置。

    有关告警的更多信息,请参考 【云监控告警服务】。

    新建触发条件模板

    1. 登录 【云监控控制台】。

    2. 在左侧导航栏中,单击【触发条件模板】,进入触发条件列表页面。

    3. 在触发条件模板页单击【新建】。

    4. 在新建模板页,配置策略类型。

      • 策略类型:选择【TSF】。

      • 触发条件:设置告警出发条件。

    5. 确认无误后,单击【保存】。 )