监控告警和日志诊断

最近更新时间: 2024-06-12 15:06:00

TBDS套件内提供了完善的服务指标监控和日志诊断功能,通过Portal即可完成监控和诊断的操作,套件运维操作的规划化和自动化使得客户在构建大数据能力的过程中得到很好的保障,运营能力得以加强。

服务监控

  1. 登录Portal后,通过【运维中心】模块进入运维管理页面,单击【监控告警】标签,即可打开监控导览页:

  2. 进入到监控页面,左右角分别提供了【硬件监控】、【进程指标】以及服务组件指标的页面入口,套件内已内置了常见的监控指标panel。

    1. 单击【硬件指标】链接,进入硬件指标页,通过选择【主机】下拉框中的主机,可切换查看不同主机的CPU使用率、磁盘使用量、负载、网络使用等指标信息:

    2. 单击【进程指标】链接,进入进程指标页,和【硬件指标】页类似,支持切换主机以查看相应的监控指标数据:

  3. 同时监控系统还提供了客户自定义监控面板的能力,单击导览页右上角【+】加号按钮,进入增加面板页面,需要注意的是套件中限制了只能由账户 admin 有权限操作监控面板自定义。

    1. 其中【标题】填写新建指标面板的自定义标题,我们以FLUME为例,新建一个面板,单击下方【新建panel】按钮,新建一个指标展示panel:

    2. 在【指标】标签页,数据来源选择opentsdb,Metric中选择指标名称:

    3. 在【坐标轴&图例】标签页中可以设置坐标轴单位、图例展示位置以及图示展示选项:

    4. 在【基本信息】标签页,可以自定义panel标题,panel展示尺寸:

    5. 在【格式】标签页,可以设置绘制线条的样式以及多系列值的展示样式:

    6. 在【时间范围】标签页,可以设置时间展示区间和时间偏移:

    当完成上述自定义参数设置后,单击右上角保存按钮,当前定制的面板和panel即可保存。

日志诊断

  1. 登录Portal后,单击【运维中心】中的【文件管理】标签页,进入日志诊断页。 日志诊断系统搜集了套件内组件的运行日志,并提供集中展示和快速检索。

  2. 单击右上角【更多筛选】按钮展开筛选菜单,第一个输入框内可以输入日志关键字,时间选择器中可以选择查找的日志时间范围,主机中可以填写指定的主机,日志级别可筛选不同的日志等级,服务和组件中可快速筛选指定服务类型和组件类型。

    如下图所示,我们筛选了一段时间内的hbase服务日志中包含'hstore completed'关键字的日志,单击【查找】按钮即可找到相应的日志条目:

服务告警

进入【运维中心】,打开【监控告警】标签页,单击左侧【】按钮进入集群告警处理页面。 套件提供了对机器指标、组件状态、服务指标等的统一监控和告警能力,当监控到某项指标达到指定告警规则的阈值后,即可触发发送告警信息到指定人员。告警又可分为指标告警和服务告警。

指标告警

针对不同的指标定义告警规则,当监控到具体指标的值满足告警规则定义的触发方式时,即产生告警记录。单击【创建告警】,进入指标告警规则创建菜单:

告警规则可选择打开或者关闭,通知方式支持邮件和短信,指标支持进程指标、硬件指标、服务指标,告警触发条件可选阈值、同比或者环比,检测周期支持1分钟,5分钟,30分钟,1小时。最后单击创建保存即可。

服务告警

针对服务和组件的运行状态的告警,监控服务运行健康状态和组件存活情况。套件中默认已经内置针对所有服务的服务告警。

单击【编辑】可以对告警接收人,告警通知方式,监控频率等进行修改。

告警记录查看

单击【告警记录】按钮可以查看系统产生的历史告警信息,支持对告警信息按照接收人、指标名、服务类型以及告警时间进行筛选。当发生告警后,请及时作出响应,将对应的指标或者服务恢复到正常水平,系统监控到服务水平恢复后,告警会自动解除。