Pod 发生重启处理预案

最近更新时间: 2026-03-13 09:03:00

告警说明

Pod发生重启:

  • 基础平台业务相关容器(ocloud-osp-passwd-svr)由于某些异常原因,导致pod发生重启。
  • 审计日志业务相关容器(t|ocloud-cloudaudit)由于某些异常原因,导致pod发生重启。
  • CAM业务相关容器(t|ocloud-tcenter-cam/tcloud-tcenter-support-cam)由于某些异常原因,导致pod发生重启。
  • 标签业务相关容器(tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag)由于某些异常原因,导致pod发生重启。
  • 云API管理业务相关容器(cloud-tcenter-yunapi3)由于某些异常原因,导致pod发生重启。

告警属性

所属模块 名称 事件级别 手工清除/自动清除
tcs-kube_state指标监控默认告警策略 Pod 发生重启 2级告警 自动清除

对系统的影响

无影响。

可能原因

序号 原因 说明
1 资源限制 - 内存限制: 此处一般伴随着(Pod 实际内存使用率(占limit)超过阈值)告警,如果容器使用的内存超过了定义的限制,Kubernetes 会杀死该容器,导致重启,此处内存不足的原因需要联系技术支持寻求服务帮助,可能原因如下:
- 实际分配内存资源限制过小,需调整大小。
- 应用程序可能存在内存泄漏,导致内存使用量逐渐增加,最终超出限制,需优化程序内存回收机制。
- CPU 限制: 此处一般伴随着(Pod cpu使用率(占limit)超过阈值)告警,虽然 CPU 限制不会直接导致容器重启,但如果容器因 CPU 资源不足而无法正常工作,可能会导致崩溃,此处cpu不足的原因需要联系技术支持寻求服务帮助,可能原因如下:
- 实际分配cpu资源限制过小,需调整大小。
- 应用程序可能存在异常,导致cpu使用量逐渐增加,最终超出限制,需优化程序逻辑。
2 健康检查失败 Liveness Probe: 如果配置了活跃探针(liveness probe),并且探针检测到容器不健康,Kubernetes 会重启该容器,此处容器不健康需要联系技术支持寻求服务帮助确认业务服务是否正常,容器不健康的根因。
3 节点问题 此处若出现节点故障,节点上所有服务均会异常,该场景由TCS层面统一处理,业务侧无需关注。

处理步骤

  1. 查询pod最近一次运行结束时的状态信息:

    • 基础平台业务:kubectl describe pod -n tce ocloud-osp-passwd-svr-xxx | grep -A 5 'Last State:'
    • 审计日志业务:kubectl describe pod -n tce t|ocloud-cloudaudit-xxx | grep -A 5 'Last State:'
    • CAM业务:kubectl describe pod -n tce t|ocloud-tcenter-cam/tcloud-tcenter-support-cam-xxx | grep -A 5 'Last State:'
    • 标签业务:kubectl describe pod -n tce tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx | grep -A 5 'Last State:'
    • 云API管理业务:kubectl describe pod -n tce cloud-tcenter-yunapi3-xxx | grep -A 5 'Last State:'

      说明:

      此处主要查看reason和exit code部分:

      • exitCode:容器的退出代码。
      • reason:终止的原因,Error(发生错误)、OOMKilled(因内存不足被杀死)等。
  2. 查看pod事件状态:

    • 基础平台业务:kubectl describe pod -n tce ocloud-osp-passwd-svr-xxx | grep -A 10 'Events:'
    • 审计日志业务:kubectl describe pod -n tce t|ocloud-cloudaudit-xxx | grep -A 10 'Events:'
    • CAM业务:kubectl describe pod -n tce t|ocloud-tcenter-cam/tcloud-tcenter-support-cam-xxx | grep -A 10 'Events:'
    • 标签业务:kubectl describe pod -n tce tcloud-tcenter-platform-tag/tcloud-tcenter-platform-wtag-xxx | grep -A 10 'Events:'
    • 云API管理业务:kubectl describe pod -n tce cloud-tcenter-yunapi3-xxx | grep -A 10 'Events:'
  3. 收集故障时间点日志信息,联系技术支持寻求服务帮助,日志路径: /data/log