租户端 基础平台 访问管理 运维管理指南 Pod 实际内存使用率(占limit)超过阈值处理预案

Pod 实际内存使用率(占limit)超过阈值处理预案

最近更新时间: 2026-03-13 09:03:00

告警说明

Pod 实际内存使用率(占limit)超过阈值:

  • 基础平台业务相关容器(cloud-tcenter)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
  • 审计日志业务相关容器(t|ocloud-cloudaudit)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
  • CAM业务相关容器(t/ocloud-tcenter-cam/tcloud-tcenter-support-cam)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
  • 标签业务相关容器(tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
  • 云API管理业务相关容器(cloud-tcenter-yunapi3)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。

告警属性

所属模块 事件名称 事件级别 手工清除/自动清除
tcs-pod指标监控默认告警策略 Pod 实际内存使用率(占limit)超过阈值 2级告警 自动清除

对系统的影响

无影响。

可能原因

  • 实际分配内存资源限制过小,需调整大小。
  • 应用程序可能存在内存泄漏,导致内存使用量逐渐增加,最终超出限制,需优化程序内存回收机制。

处理步骤

  1. 查询pod的资源限制信息:

    • 基础平台业务:kubectl describe pod -n tce cloud-tcenter-xxx | grep -A 5 'Limits:'
    • 审计日志业务:kubectl describe pod -n tce t|ocloud-cloudaudit-xxx | grep -A 5 'Limits:'
    • CAM业务:kubectl describe pod -n tce t|ocloud-tcenter-cam/tcloud-tcenter-support-cam | grep -A 5 'Limits:'
    • 标签业务:kubectl describe pod -n tce tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx | grep -A 5 'Limits:'
    • 云API管理业务:kubectl describe pod -n tce cloud-tcenter-yunapi3-xxx | grep -A 5 'Limits:'
  2. 查看pod历史监控信息:
    运营端-监控系统-云产品指标-TCS/POD内查询告警触发的pod在告警时间点附近或者更久的内存使用率监控,确认是否为正常业务行为。

    时间范围故障时间点当天
    监控指标pod_memory_nocache_limit_usage
    Clusterglobal
    Namespacetce
    Pod
    • 基础平台业务: cloud-tcenter-xxx
    • 审计日志业务: t\|ocloud-cloudaudit-xxx
    • CAM业务: t\|ocloud-tcenter-cam/tcloud-tcenter-support-cam
    • 标签业务:tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx
    • 云API管理业务: cloud-tcenter-yunapi3-xxx
  3. 收集相关信息,联系技术支持寻求服务帮助。