
主要模块划分:
| 模块 | 描述 |
|---|---|
| 上报部分 | 主要有业务的上报模块,dcos, 以及子机,母机上部署的Agent来完成采集和上报,子机与母机上均有到云监控接入server的访问路径,所有上报均报到云监控系统提供的统一的域名和cgi, 采用http协议进行上报。 |
| 数据处理 | 由Flink搭建的流处理集群,前置接入server-NWS,和kafka提供消息缓冲。 |
| 数据存储 | 采用ctsdb时序性数据存储,由专门的团队进行维护和升级。 |
| 异常处理模块 | 包括告警中心和事件中心,分别处理需要统计计算后有阈值和持续时间的告警,以及单纯的触发性告警。 |
| 消息发送模块 | 主要负责与后端的平台性消息发送平台对接,记录告警流水,以及对一些告警展示里的必要字段进行翻译。 |
| 自定义消息模块 | 提供给租户端的直接发送消息功能的模块,不会进行收敛处理。 |
| Api | 分为customApi和baradApi两层,前者直接对接yunApi Gateway, 可供租户端调用;后者直接对接存储,对前端屏蔽一切存储相关的特性,且会提供一些指标配置管理的功能。 |
| 自助接入系统 | 运营端使用,允许运维人员动态地添加、删除指标的维度聚合和统计配置,这些配置将会影响租户端和运营端可查看和配置告警的指标功能。 |
| 其他旁路系统 | 提供一些配置同步功能,将在后面模块详细架构中予以补充说明。 |
接入层NWS服务
Barad_Agent安装流程
- 用户新建云主机时,如果选择开通云监控。
- 云主机创建成功之后,会从hdfs的/images/qcloudagent目录下载最新版本的stargate安装包【一般是stargate_linux_install_v1.2.6.tar.gz版本】。
- 安装并启动sgagent服务。
- sgserver所在的容器【tcloud-barad-update2】,首次启动的时候会执行hdfs_client服务命令。
- hdfd_client会从hdfs的/barad目录下载最新版的barad_agent安装包【一般是/barad/baradagent_installer】,放到本地的/data/www/update2.agent.yun.com/update目录,并把版本信息写入数据库。
- sgagent启动之后,会调用sgserver接口,查询barad_agent安装版本信息。
- 并从sgserver的/data/www/update2.agent.yun.com/update目录下载barad_agent安装包。
- 安装并启动barad_agent服务。
- 整个流程中:
- barad_agent安装包由cvm团队提供,并保证把最新的安装包信息上传到hdfs的/barad目录上。
- barad_agent安装包以及配置都是cvm团队维护,sgagent只是负责下载、安装和启动。