租户端基础平台访问管理运维管理指南 Pod 实际内存使用率(占limit)超过阈值处理预案

Pod 实际内存使用率(占limit)超过阈值处理预案

最近更新时间: 2026-03-13 09:03:00

告警说明

Pod 实际内存使用率(占limit)超过阈值：

基础平台业务相关容器（cloud-tcenter）由于某些异常原因，导致内存使用率较高，超过了limit设置的95%。
审计日志业务相关容器（t|ocloud-cloudaudit）由于某些异常原因，导致内存使用率较高，超过了limit设置的95%。
CAM业务相关容器（t/ocloud-tcenter-cam/tcloud-tcenter-support-cam）由于某些异常原因，导致内存使用率较高，超过了limit设置的95%。
标签业务相关容器（tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag）由于某些异常原因，导致内存使用率较高，超过了limit设置的95%。
云API管理业务相关容器（cloud-tcenter-yunapi3）由于某些异常原因，导致内存使用率较高，超过了limit设置的95%。

告警属性

所属模块	事件名称	事件级别	手工清除/自动清除
tcs-pod指标监控默认告警策略	Pod 实际内存使用率(占limit)超过阈值	2级告警	自动清除

对系统的影响

无影响。

可能原因

实际分配内存资源限制过小，需调整大小。
应用程序可能存在内存泄漏，导致内存使用量逐渐增加，最终超出限制，需优化程序内存回收机制。

处理步骤

查询pod的资源限制信息：
- 基础平台业务：kubectl describe pod -n tce cloud-tcenter-xxx | grep -A 5 'Limits:'
- 审计日志业务：kubectl describe pod -n tce t|ocloud-cloudaudit-xxx | grep -A 5 'Limits:'
- CAM业务：kubectl describe pod -n tce t|ocloud-tcenter-cam/tcloud-tcenter-support-cam | grep -A 5 'Limits:'
- 标签业务：kubectl describe pod -n tce tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx | grep -A 5 'Limits:'
- 云API管理业务：kubectl describe pod -n tce cloud-tcenter-yunapi3-xxx | grep -A 5 'Limits:'

查看pod历史监控信息：
运营端-监控系统-云产品指标-TCS/POD内查询告警触发的pod在告警时间点附近或者更久的内存使用率监控，确认是否为正常业务行为。

时间范围	故障时间点当天
监控指标	pod_memory_nocache_limit_usage
Cluster	global
Namespace	tce
Pod	基础平台业务： cloud-tcenter-xxx 审计日志业务： t\\|ocloud-cloudaudit-xxx CAM业务： t\\|ocloud-tcenter-cam/tcloud-tcenter-support-cam 标签业务：tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx 云API管理业务： cloud-tcenter-yunapi3-xxx

收集相关信息，联系技术支持寻求服务帮助。