云防火墙监控指标和异常告警处理

最近更新时间: 2026-03-13 09:03:00

告警事件呈现位置

【云平台运营端】-【监控系统】- 【云产品指标】- 【CFW】

【监控系统】告警事件和指标:

接收报文无Mbuf可用【严重】

阈值:
指标查看:监控折线图、监控事件。

  • 监控事件:【云防火墙核心业务事件信息监控】
    接收报文无mbuf可用tcs_type="cfw_event_err_info",event_name="NO_MBUF"

  • 监控折线图:【云防火墙引擎网卡信息-rx_nombuf】 当rx_nombuf不为0 存在异常

  • 监控折线图:【云防火墙引擎网卡信息-mbufinuse】

  • 监控折线图:【云防火墙引擎网卡信息-每秒发送/接收数据包】

大页内存不足,自动主备切换【严重】

阈值:主引擎内存占用超98% 。
指标查看:监控折线图、监控事件。

  • 监控事件:【云防火墙核心业务事件信息监控】
    大页内存不足,自动主备切换 tcs_type="cfw_event_err_info",event_name="HUGE_PAGES_NOT_ENOUGH_SWITCH"
  • 监控折线图:【云防火墙引擎内存监控】

DPDKCPU占用率超95%【严重】

阈值:3分钟,持续满载95%
指标查看:监控折线图、监控事件。

  • 监控事件:【云防火墙核心业务事件信息监控】
    DPDKCPU占用率超95% tcs_type="cfw_event_err_info",event_name="DPDK_CPU_HIGH"
  • 监控折线图:【云防火墙cpu信息监控】
    CPU指标上报频率5秒/1次,监控系统最小刻度15秒,因此这里需要选择统计方式:最大值来查看
  • 监控折线图:【云防火墙引擎内存监控-大页内存占用率】
  • 监控折线图:【云防火墙引擎连接数-引擎用户态会话连接数】
  • 监控折线图:【云防火墙引擎网卡信息监控-每秒发送/接收数据包】

引擎发生主备切换【生效失败】【严重】

短时间内多次告警,且未收到 引擎发生主备切换【生效成功】告警。
指标查看:监控事件

  • 监控事件:【云防火墙核心业务事件信息监控】
    引擎发生主备切换【生效失败】 tcs_type="cfw_event_err_info",event_name="HAVIP_INVALID_CHECK"
    引擎发生主备切换【生效成功】告警 tcs_type="cfw_event_err_info",event_name="HAVIP_VALID_CHECK"

防火墙Havip生效CVM不一致【严重】

指标查看:监控事件

  • 监控事件:【云防火墙核心业务事件信息监控】
    防火墙HaVip生效CVM不一致 barad_err_status = 23

NAT边界防火墙Havip引擎节点IP丢失【严重】

指标查看:监控事件

  • 监控事件:【云防火墙核心业务事件信息监控】
    NAT边界防火墙HaVip引擎节点IP丢失 tcs_type="cfw_event_err_info",event_name="NATHAVIP_EMPTY_ALARM"

Havip所属机器ip可能不存在,请检查流量状态【严重】

指标查看:监控事件

  • 监控事件:【云防火墙核心业务事件信息监控】
    havip所属机器ip可能不存在,请检查流量状态 tcs_type="cfw_event_err_info",event_name="NO_IP_CHECK"

大页内存不足【重要】

内存占用超95%
指标查看:监控事件

  • 监控事件:【云防火墙核心业务事件信息监控】
    大页内存不足【级别:高】 tcs_type="cfw_event_err_info",event_name="HUGE_PAGES_NOT_ENOUGH"

磁盘占用过高【重要】

磁盘占用超95%
指标查看:监控折线图

  • 监控折线图:【云防火墙引擎磁盘使用监控】

【监控系统】告警事件处理

接收报文无Mbuf可用【严重】

该告警代表无多余的内存给网卡收包队列,则需要做如下处置:

  1. 告警确认:【云防火墙引擎网卡信息-rx_nombuf】,有值则代表有效。
  2. 告警处置:需要运维人员去“租户端-云防火墙-控制台”或者“云平台运维端”做下引擎的主备切换,然后查看流量是否恢复。
  3. 恢复确认:查看网卡流量【云防火墙引擎网卡信息-每秒发送/接收数据包】。
  4. 异常处置:如果网卡流量未达到告警前的水平,持续掉0或则剧降,则需要运维人员去“租户端-云防火墙-控制台”或者“云平台运维端”触发引擎bypass或者关闭防火墙开关,恢复业务。

大页内存不足,自动主备切换【严重】

当引擎的内存使用占比98%,后台会自动切换主备,原来的主变为现在的备,这时候需要登录到现在的备,重启引擎,保证大页内存恢复到健康状态,使得备机健康,引擎下次切换正常工作。
告警处置:登录引擎备机(参考2-2-1、2-2-2、2-2-3步骤),然后执行指令可重启引擎:
kill -9 pidof fwdpdkengine``

DPDKCPU占用率超95%【严重】

当引擎某个core的使用占比达到95%,就会推送此告警。
告警确认:查看折线图:【云防火墙cpu信息监控】。如果占用率长时间高于90%。则需要结合:【云防火墙引擎内存监控-大页内存占用率】【云防火墙引擎连接数-引擎用户态会话连接数】、【云防火墙引擎网卡信息监控-每秒发送/接收数据包】看出引发占用率高原因。
历史已排查到的几个原因有:

  • 大页内存用光。
  • 流量突增。
  • 大象流进IPS。
    DPDK-CPU偶尔一两次告警,影响不大,属于业务正常波动。 如果告警稳定持续了较长时间(1小时、3小时等),说明业务流量和当前实例不太匹配。可根据实际情况进行选择,告警处置:
  • 垂直扩容防火墙实例。
  • 关闭部分开关,减轻防火墙压力。

引擎发生主备切换【生效失败】【严重】

收到一条告警,且未收到 引擎发生主备切换【生效成功】告警,则需要做如下告警处置:

  1. 查看用户最近防火墙开关、ACL规则等操作日志,看是否有什么操作导致的
  2. 如果一直未收到切换成功告警,则需查看业务网卡流量【云防火墙引擎网卡信息-每秒发送/接收数据包】是否剧降或者掉0
  3. 如果业务网卡流量聚降或者掉0,则需要运维人员去控制台或者后台做主备切换。
  4. 如果操作了C还有问题,则可以选择关闭防火墙开关或者bypass防火墙

防火墙Havip生效CVM不一致【严重】

收到一条该告警,且未收到 防火墙HaVip生效CVM不一致【恢复】告警,则需要做如下处置:

  1. 查看业务网卡流量【云防火墙引擎网卡信息-每秒发送/接收数据包】是否掉0
  2. 如果业务网卡流量掉0,则需要运维人员去控制台或者后台主动触发一次主备切换
  3. 如果操作了b还有问题,则可以选择关闭防火墙开关或者bypass防火墙。

NAT边界防火墙Havip引擎节点IP丢失【严重】

收到一条该告警,且未收到 NAT边界防火墙HaVip引擎节点IP丢失 告警,表示引擎没有引流网卡ip,需做如下处置:

  1. 查看业务网卡流量【云防火墙引擎网卡信息-每秒发送/接收数据包】是否掉0
  2. 如果业务网卡流量掉0,则需要运维人员去控制台或者后台主动触发一次主备切换
  3. 如果操作了B还有问题,则可以选择关闭防火墙开关或者bypass防火墙。

Havip所属机器ip可能不存在,请检查流量状态【严重】

收到一条该告警,表示两台引擎机器网卡异常,都没有引流网卡ip,需做如下处置:

  1. 查看业务网卡流量【云防火墙引擎网卡信息-每秒发送/接收数据包】是否掉0
  2. 如果业务网卡流量掉0,则需要运维人员去控制台或者后台主动触发一次主备切换
  3. 如果操作了B还有问题,则可以选择关闭防火墙开关或者bypass防火墙。

大页内存不足【重要】

当引擎的内存使用占比95%,就会收到该告警,此时不会自动切主备。需要运维人员查看监控系统指标:【云防火墙引擎内存监控】,并选择统计方式:最大值,确认内存是持续上涨还是脉冲偶现。
如果是持续上涨,我们建议需要运维人员去控制台或者后台做如下告警处置:

  1. 首先查看大页内存、CPU等曲线图,查看备机是否健康
  2. 如果备机健康,选择控制台或者引擎需要运维人员去控制台或者后台主动做下引擎的主备切换
  3. 切换成功,原来的主变为现在的备,这时候需要登录到现在的备,重启引擎,保证大页内存恢复到健康状态,使得备机健康,引擎下次切换正常工作
  4. 登录引擎备机(参考2-2-1、2-2-2、2-2-3步骤),然后执行如下指令可重启引擎:kill -9 pidof fwdpdkengine``
    如果是脉冲偶现,则可忽略告警,持续关注是否有其他致命告警指标。

磁盘占用过高【重要】

磁盘占用超过95%,就会收到该告警,磁盘满会影响防火墙规则、路由策略下发,影响引擎正常功能,需要登录引擎找到大文件及时清理。

【监控系统】告警配置指引

确认策略管理

控制台路径:【监控系统】-【策略管理】 cfw出包之后,默认会带如下两种策略。

  • 基于指标的策略:
    策略名称:
    cfw-cfw_engine_disk指标监控默认告警策略
    cfw-cfw_engine_memory指标监控默认告警策略
  • 基于事件的策略:
    策略名称:cfw-cfw_event_err_info事件监控默认告警策略

通知规则配置

通知规则需要交付后,由客户现场配置
配置对象:运维、驻场
控制台路径:【监控系统】-【通知规则】-【新建】

  • 基于指标的通知规则配置:
  • 基于事件的通知规则配置:

告警通知查看

可以在控制台如下路径,查看历史收到的告警