监控告警简介

最近更新时间: 2024-10-17 17:10:00

简介

日志服务支持对一个或多个日志主题设置告警策略,告警策略会周期性地执行监控任务,当查询分析结果满足触发条件时发送告警通知,方便用户及时发现异常问题。

相关概念

名称 描述
告警策略 监控告警的管理单元,一条告警策略包括监控对象、监控周期、触发条件、告警频率、通知模版等信息
监控对象 以日志主题为监控对象,并对该日志主题执行一种分析语句,然后检查分析结果
监控周期 策略执行周期,支持固定周期(如每隔5分钟)和固定时间(如每天12:00)
触发条件 检查查询分析结果,若触发条件表达式为true,则会触发告警
告警频率 满足触发条件后的告警频率,避免频繁告警通知
通知模版 定义通知的类型、对象和渠道,通知渠道支持短信、邮件、Webhook等告警通知方式

说明:

配置流程参考 配置告警策略

原理介绍

日志服务监控告警是基于 日志分析 而扩展的能力,它可以从日志分析的结果里取出重要字段作为监控指标,当所监控指标满足触发条件时,会触发告警。例如,一条统计 error 级别的错误日志条数的分析语句为 level:error | select count(*) as ErrCount,将周期内统计的条数结果 ErrCount 作为监控指标,当统计数量结果 ErrCount 大于10条时,则会触发告警。所以,监控告警的执行流程主要包含监控、判断、告警,详细说明如下:

  • 监控:日志服务会根据【告警策略】里的【监控周期】,周期性地对所监控的日志主题执行分析语句;当【告警策略】里有多个【监控对象】,则执行监控时会同时运行多个分析语句。

  • 判断:引用分析结果代入 触发条件表达式 中,若表达式判断为真(true),则表示满足触发条件,将会进行告警;相反,若表达式判断为假(false),则表示不满足触发条件,不会触发告警。 当满足【触发条件】后,会再根据【告警频率】进行收敛判断;只有同时再满足【告警频率】的条件时,才会发送告警通知。

  • 告警:根据【告警策略】里的【通知模版】,将告警通知发送给对应的接收对象。