
告警说明
Pod 实际内存使用率(占limit)超过阈值:
- 基础平台业务相关容器(cloud-tcenter)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
- 审计日志业务相关容器(t|ocloud-cloudaudit)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
- CAM业务相关容器(t/ocloud-tcenter-cam/tcloud-tcenter-support-cam)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
- 标签业务相关容器(tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
- 云API管理业务相关容器(cloud-tcenter-yunapi3)由于某些异常原因,导致内存使用率较高,超过了limit设置的95%。
告警属性
| 所属模块 | 事件名称 | 事件级别 | 手工清除/自动清除 |
|---|---|---|---|
| tcs-pod指标监控默认告警策略 | Pod 实际内存使用率(占limit)超过阈值 | 2级告警 | 自动清除 |
对系统的影响
无影响。
可能原因
- 实际分配内存资源限制过小,需调整大小。
- 应用程序可能存在内存泄漏,导致内存使用量逐渐增加,最终超出限制,需优化程序内存回收机制。
处理步骤
查询pod的资源限制信息:
- 基础平台业务:kubectl describe pod -n tce cloud-tcenter-xxx | grep -A 5 'Limits:'
- 审计日志业务:kubectl describe pod -n tce t|ocloud-cloudaudit-xxx | grep -A 5 'Limits:'
- CAM业务:kubectl describe pod -n tce t|ocloud-tcenter-cam/tcloud-tcenter-support-cam | grep -A 5 'Limits:'
- 标签业务:kubectl describe pod -n tce tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx | grep -A 5 'Limits:'
- 云API管理业务:kubectl describe pod -n tce cloud-tcenter-yunapi3-xxx | grep -A 5 'Limits:'

查看pod历史监控信息:
运营端-监控系统-云产品指标-TCS/POD内查询告警触发的pod在告警时间点附近或者更久的内存使用率监控,确认是否为正常业务行为。时间范围 故障时间点当天 监控指标 pod_memory_nocache_limit_usage Cluster global Namespace tce Pod - 基础平台业务: cloud-tcenter-xxx
- 审计日志业务: t\|ocloud-cloudaudit-xxx
- CAM业务: t\|ocloud-tcenter-cam/tcloud-tcenter-support-cam
- 标签业务:tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx
- 云API管理业务: cloud-tcenter-yunapi3-xxx
收集相关信息,联系技术支持寻求服务帮助。
