
告警说明
Pod cpu使用率(占limit)超过阈值:
- 基础平台业务相关容器(cloud-tcenter)由于某些异常原因,导致cpu使用率较高,超过了limit设置的95%。
- 审计日志业务相关容器(t|ocloud-cloudaudit)由于某些异常原因,导致cpu使用率较高,超过了limit设置的95%。
- CAM业务相关容器(t|ocloud-tcenter-cam/tcloud-tcenter-support-cam)由于某些异常原因,导致cpu使用率较高,超过了limit设置的95%。
- 标签业务相关容器(tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag)由于某些异常原因,导致cpu使用率较高,超过了limit设置的95%。
- 云API管理业务相关容器(cloud-tcenter-yunapi3)由于某些异常原因,导致cpu使用率较高,超过了limit设置的95%。
告警属性
| 所属模块 | 名称 | 事件级别 | 手工清除/自动清除 |
|---|---|---|---|
| tcs-pod指标监控默认告警策略 | Pod cpu使用率(占limit)超过阈值 | 2级告警 | 自动清除 |
对系统的影响
无影响。
可能原因
- 实际分配cpu资源限制过小,需调整大小。
- 应用程序可能存在异常,导致cpu使用量逐渐增加,最终超出限制,需优化程序逻辑。
处理步骤
查询pod的资源限制信息:
- 基础平台业务***:kubectl describe pod -n tce cloud-tcenter-xxx | grep -A 5 'Limits:'***
- 审计日志业务:kubectl describe pod -n tce t|ocloud-cloudaudit-xxx | grep -A 5 'Limits:'
- CAM业务:kubectl describe pod -n tce t|ocloud-tcenter-cam/tcloud-tcenter-support-cam-xxx | grep -A 5 'Limits:'
- 标签业务:kubectl describe pod -n tce tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx | grep -A 5 'Limits:'
- 云API管理业务:kubectl describe pod -n tce cloud-tcenter-yunapi3-xxx | grep -A 5 'Limits:'

查看pod历史监控信息:
运营端-监控系统-云产品指标-TCS/POD内查询告警触发的pod在告警时间点附近或者更久的cpu使用率监控,确认是否为正常业务行为。时间范围 故障时间点当天 监控指标 pod_cpu_limit_usage Cluster global Namespace tce Pod - 基础平台业务: cloud-tcenter-xxx
- 审计日志业务:Pod: t\|ocloud-cloudaudit-xxx
- CAM业务:Pod: t\|ocloud-tcenter-cam/tcloud-tcenter-support-cam-xxx
- 标签业务:Pod: tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx
- 云API管理业务:Pod: cloud-tcenter-yunapi3-xxx
收集相关信息,联系技术支持寻求服务帮助。
