监控告警简介
最近更新时间: 2024-10-17 17:10:00
简介
日志服务支持对一个或多个日志主题设置告警策略,告警策略会周期性地执行监控任务,当查询分析结果满足触发条件时发送告警通知,方便用户及时发现异常问题。
相关概念
名称 | 描述 |
---|---|
告警策略 | 监控告警的管理单元,一条告警策略包括监控对象、监控周期、触发条件、告警频率、通知模版等信息 |
监控对象 | 以日志主题为监控对象,并对该日志主题执行一种分析语句,然后检查分析结果 |
监控周期 | 策略执行周期,支持固定周期(如每隔5分钟)和固定时间(如每天12:00) |
触发条件 | 检查查询分析结果,若触发条件表达式为true,则会触发告警 |
告警频率 | 满足触发条件后的告警频率,避免频繁告警通知 |
通知模版 | 定义通知的类型、对象和渠道,通知渠道支持短信、邮件、Webhook等告警通知方式 |
说明:
配置流程参考 配置告警策略。
原理介绍
日志服务监控告警是基于 日志分析 而扩展的能力,它可以从日志分析的结果里取出重要字段作为监控指标,当所监控指标满足触发条件时,会触发告警。例如,一条统计 error
级别的错误日志条数的分析语句为 level:error | select count(*) as ErrCount
,将周期内统计的条数结果 ErrCount
作为监控指标,当统计数量结果 ErrCount
大于10条时,则会触发告警。所以,监控告警的执行流程主要包含监控、判断、告警,详细说明如下:
监控:日志服务会根据【告警策略】里的【监控周期】,周期性地对所监控的日志主题执行分析语句;当【告警策略】里有多个【监控对象】,则执行监控时会同时运行多个分析语句。
判断:引用分析结果代入 触发条件表达式 中,若表达式判断为真(true),则表示满足触发条件,将会进行告警;相反,若表达式判断为假(false),则表示不满足触发条件,不会触发告警。 当满足【触发条件】后,会再根据【告警频率】进行收敛判断;只有同时再满足【告警频率】的条件时,才会发送告警通知。
告警:根据【告警策略】里的【通知模版】,将告警通知发送给对应的接收对象。