运维排障指引
最近更新时间: 2024-10-17 17:10:00
本文主要介绍使用 TSF 进行排障的基础思路和操作步骤,方便运维人员在使用 TSF 过程中进行问题定位和处理。运维排障整体思路为:
通过告警或者业务大屏发现问题。
通过查看服务监控初步定位是实例、部署组还是接口出现问题。
根据具体问题所在处继续向下进行详细排查。
步骤一:发现问题
发现问题通常有告警和业务大屏两种方式: 方式一:配置告警信息 配置告警信息,通常有以下三个层面告警:
微服务业务级别:微服务自身状态,微服务自身请求量、耗时和错误率,微服务接口请求量、耗时和错误率,部署组健康率等。
底层资源级别:CPU 内存、云主机状态、容器集群等。
组件级别:数据库实例、CKafka 实例等。
操作指引: 在云监控界面为 TSF 服务配置告警策略和 Dashboard,步骤如下:
配置告警策略,通过告警发现问题。
配置 Dashboard,通过展示的监控指标发现问题。
方式二:查看业务大屏 查看业务大屏,通过微服务列表和接口列表查看当前运行的服务的状态。
操作指引: 在 TSF 控制台通过查看服务依赖拓扑图和接口列表,步骤如下:
查看服务依赖拓扑图,通过依赖拓扑图发现问题。
查看服务列表中服务运行健康状态,通过业务请求量、耗时、错误率等发现问题。
步骤二:初步定位
当发现问题后,查看服务监控初步确定是服务实例还是部署组还是接口出现问题。
步骤三:详细排查
初步定位问题后,排障思路如下:
部署组问题:可以考虑程序包版本问题或者查看日志等方式排查
实例问题:可以通过查看日志和 JVM 进程等方式排查 。
接口问题:可以通过查看日志和调用链等方排查 。