故障现象场景描述
运营端-用户与权限页面打开报错或新创建账号报错。
故障影响范围
- 对云平台产品管控的影响:影响现有账号展示和新创建账号、可能会影响运营端登录。
- 对用户生产业务的影响:无。
故障定位分析
- 相关pod状态异常。
- 服务渲染异常、数据库异常等。
故障应急处置步骤
- 为快速恢复业务,重启相关pod服务。
kubectl get pod -n tce | grep -E 'cloud-tcenter-identityaccess|cloud-tcenter-open-identity'
kubectl delete pod -n tce ocloud-tcenter-identityaccess-xxxx/ocloud-tcenter-open-identity-xxx
- 重启pod不能恢复业务需要进一步进到pod内查看日志进行故障排查。
kubectl get pod -n tce | grep -E 'cloud-tcenter-identityaccess|cloud-tcenter-open-identity'
kubectl exec -it -n tce ocloud-tcenter-identityaccess-xxxx bash
# 检查服务主进程是否运行
ps -ef
cd /data/log/
#通过报错reqid 查询日志
grep -ir $reqid app.log

故障恢复验证
页面报错消失或者服务功能恢复。