配置告警策略

最近更新时间: 2024-10-17 17:10:00

操作场景

基于日志配置告警策略,在出现符合特定条件的日志时发送告警,例如 error 日志数量过多,接口响应时间过长等。

前提条件

  • 日志已经上传到某个日志主题。

  • 日志主题已 配置索引

操作步骤

登录日志服务控制台,单击左侧菜单栏的【监控告警】>【告警策略】,进入告警策略管理页面。

单击【新建】,配置如下主要信息。

基本信息

  • 告警名称:字符长度为1至255个字符。

  • 启用状态:是否启用当前告警策略,告警策略不启用时不产生任何告警及通知。

监控对象

选择需要监控的日志主题,支持按关键字搜索过滤。

监控任务

  • 执行语句:作用于日志主题的执行语句,执行语句需包含分析语句(即 SQL 语句)。

    • 例1:统计出现 error 的日志条数 status:error | select count(*) as ErrCount

    • 例2:统计域名 domain:aaa.com 的平均响应时间domain:"aaa.com" | select avg(request_time) as Latency

  • 查询时间范围:执行语句需要查询的数据时间范围,最大时间范围为最近24小时。

  • 执行周期:监控任务的执行频率。

  • 触发条件:判断是否满足触发告警的条件表达式,当满足条件时进行告警。

日志服务提供 $N.keyname的方式引用分析结果。

  • $N: 表示当前告警策略中的第 N 个监控对象(详情参见 如何查看编号

  • keyname:表示对应的字段名称,例如 $1.status>500 表示编号为1的查询的 status字段大于500时触发告警,更多表达式语法参见 触发条件表达式语法

告警策略

  • 告警频率:当持续满足触发条件达到一定次数(默认为1,有效值范围:1 - 10)以后,日志服务根据告警频率进行通知触达;通过配置持续周期的阈值可以避免不重要的偶发情况。例如,配置持续5个周期满足触发条件,表示累计触发次数达到5次以后,再进行通知触达。当修改了触发条件表达式,或计算过程中不满足表达式条件,累计次数将会清零。

  • 通知渠道组:通过关联通知渠道组,设置发送通知的方式及对象,支持短信、邮件、电话、微信、企业微信、自定义接口回调(webhook) 等通知方式。详情参见 管理通知渠道组

  • 通知内容:支持使用 告警通知变量 动态生成。

  • 多维分析:触发告警时,可通过多维分析对原始日志做进一步的分析,并将分析结果附加在告警通知中,以辅助定位告警原因。多维分析不会影响告警触发条件。

常见问题

如何查看编号?

在监控规则页面,监控对象左侧显示当前查询的对象编号。第1个监控对象的查询编号为1,第2个监控对象的查询编号为2,以此类推。