操作场景
tcenter⼤部分的组件都在容器中运⾏,且⼤部分容器⾃身都有健康探测机制。所以⾸先确认容器的运⾏是否健康很重要。
前提条件
已获取租户端控制台及运营端控制台登录地址和账号密码。
操作步骤
- 登录租户端控制台,确认主页面无报错
- 选择个人信息 > 账户中心/访问管理/安全设置,进入基础平台租户端页面,在左侧栏中依次单击所有子项等,查看页面是否正常展示。
- 登录运营端控制台,确认主页面无报错
- 选择平台管理 > 用户与权限/云API管理/CAM管理,进入基础平台运营端页面,在左侧栏中依次单击所有子项等,查看页面是否正常展示。
如果存在页面显示异常、页面出现报错的情况,请参考异常处理来处理。
异常处理
- 检查服务pod状态
# 检查pod是否正常拉起,pod状态是否正常
kubectl get pod -n tce | grep cloud-tcenter
# 由于tcenter服务均为无状态服务,若存在异常状态pod,可通过delete命令快速恢复,此处以ocloud-tcenter-identityaccess为例
kubectl delete pod -n tce ocloud-tcenter-identityaccess-xxx
- 查看服务日志
由于涉及页面较多,且几乎均为容器化组件提供服务,均通过云API向后转发请求,故提供通用排查方案
# 获取云API日志搜索脚本
mkdir -p /data/tce_dc/workspace/gateway/
cd /data/tce_dc/workspace/gateway/
kubectl -ntce cp `kubectl get pod -n tce | grep ocloud-tcenter-yunapi3-yuntu | awk '{print $1}' | tail -n 1`:/usr/local/services/yuntu/bin/traefik_tool.sh /data/tce_dc/workspace/gateway/traefik_tool.sh
chmod +x traefik_tool.sh
./traefik_tool.sh log ${reqid}

截图中红框部分需要关注的主要为
1)请求后端地址 (tcloud-tcenter-platform-waccount.tcenter:6060/waccount)
2)入参 ({"Action":"GetPasswordRules","AppId":1255000134,"Language":"zh-CN","OperatorUin":"110000000178","Region":"ap-hqtest-ops","RequestId":"d31108c2-d2c2-c727-8b1f-0efbd44041dd","SubAccountUin":"110000000178","Uin":"110000000178","Version":"2019-01-16"})
进一步排查日志方式需进入后端业务容器查看,例如
nslookup tcloud-tcenter-platform-waccount.tcenter 192.168.0.10
kubectl get svc -n tce | grep 192.168.150.236
kubectl get pod -n tce | grep tcloud-tcenter-identityaccess
kubectl exec -it -n tce tcloud-tcenter-identityaccess-xxxx bash
grep -rn ${reqid} /data/log/

