事件中心概述

最近更新时间: 2024-06-12 15:06:00

  1. 事件概述

    事件是信息的一种承载媒介,描述特定对象某一瞬间的非持续性变化,与唯一时刻和唯一对象关联。例如:某台计算机从运行状态变更为关机,程序运行开始和结束,办公大楼停电等。事件是对象在两个不同状态中的变更瞬间的记录。

    助力发现、定位、解决问题,保障系统与服务整体的稳定与性能是监控服务的目的。而信息与数据是运维与监控的核心驱动。

    指标作为主要监控信息源,以阈值类周期性持续性形态描述特定对象特定变量随时间变化的数值与趋势,从而表现资源与环境的使用情况和反映其健康状态。例如:某台云服务器的CPU利用率,数据库实例的慢查询数。 指标能覆盖绝大部分监控发现问题的场景,但仅使用指标作为监控的信息源会有以下缺点:

    • 信息传递延迟,指标阈值的变化可能会在特定事件发生后一段时间才会表现出来(或者不表现)。

    • 传递信息的准确性辨别性不高,仅通过阈值变化来判断和定位真实事件或者问题原因难度提高。

    • 承载信息维度有限,指标仅通过阈值形式记录,无法使用文字等方式提供其余补充与附带信息。

      引入事件作为监控的信息载体,能更准确与直接描述资源与底层基础设施服务的运行状态,助力更高效发现、定位从而解决问题。 优点:结果导向,提高信息描述准确性;减少延迟;传递更多信息,完善监控信息维度。

  2. 事件中心简介

    云监控事件中心作为云平台事件信息中枢,产品云平台各产品资源生命周期与运转中的重要事件信息,并构建完善的事件消费渠道与流程,支撑客户云上监控与运维。

    事件中心所产品化提供的事件信息,由云平台内部各产品模块与底层基础设施服务获取,经过聚合,判定和收敛再最终呈现。信息源来自各模块底层的系统日志与监控项,保障客户透传客户的信息准确性与价值。

  3. 事件类型

    根据事件信息来源、事件致因、特点和形态,事件中心覆盖事件分为产品事件与平台事件两大类,并由两个独立的产品页面和消费流程承载。 产品事件:产品事件产生于客户云上购买和使用的资源实例与产品(例如一台CVM实例),由客户在使用过程中操作行为直接或间接触发导致,事件属于特定资源实例维度。客户对事件可控,有自行处理能力。事件影响和关联资源实例可明确确认。 平台事件:平台事件产生于支持云平台底层基础设施服务(如支持CVM产品的虚拟化层VMM与底层物理机、网络和存储模块),由云底层基础设施与服务产生或导致,事件根本致因非客户行为引起,事件属于服务维度。客户对事件不可控,仅云平台有处理能力。事件影响和关联的服务或产品模块可确认,影响和关联的资源实例不一定可明确确认。

    事件对比

    对比项 产品事件 平台事件
    事件来源 客户云上购买和使用的资源实例与产品 云平台底层基础设施服务
    事件致因 使用过程中操作行为直接或间接触发导致 云底层基础设施与服务产生或导致
    事件从属维度 资源实例维度 底层服务维度
    事件处理能力 客户对事件可控 可自行处理 客户对事件不可控 需要云平台处理
    事件关联对象粒度 影响和关联资源实例可明确确认 影响和关联的底层服务或产品模块可确认,
    向上影响到的资源实例不一定可确认
  4. 事件中心用例

    基于事件信息,事件中心规划和提供了完善的事件消费渠道与能力。

    • 展示回溯:记录账户相关所有事件信息,控制台提供查看,全局筛选,搜索与回溯事件信息能力。

    • 告警通知:对关注事件及资源配置告警或订阅,及时触达负责人。

    • API拉取:使用api拉取事件信息对接自建监控系统。

    • 自动化:后续将支持以事件作为触发源配置联动调用操作,支撑客户自动化运维。

  5. 价值

    • 完善云上资源监控信息维度,为监控运维提供更全面数据支撑。

    • 提供事件信息消费渠道,助力转化监控信息价值。

    • 收敛判定逻辑,更高效直接定位影响资源及致因。

    • 事件信息可溯源审阅,资源及平台生命周期重要事件变更知悉。

    • 事件触发联动,自动化响应特定资源及环境变更。