运维排障指引

最近更新时间: 2024-10-17 17:10:00

本文主要介绍使用 TSF 进行排障的基础思路和操作步骤,方便运维人员在使用 TSF 过程中进行问题定位和处理。运维排障整体思路为:

  1. 通过告警或者业务大屏发现问题。

  2. 通过查看服务监控初步定位是实例、部署组还是接口出现问题。

  3. 根据具体问题所在处继续向下进行详细排查。

步骤一:发现问题

发现问题通常有告警和业务大屏两种方式: 方式一:配置告警信息 配置告警信息,通常有以下三个层面告警:

  • 微服务业务级别:微服务自身状态,微服务自身请求量、耗时和错误率,微服务接口请求量、耗时和错误率,部署组健康率等。

  • 底层资源级别:CPU 内存、云主机状态、容器集群等。

  • 组件级别:数据库实例、CKafka 实例等。

操作指引: 在云监控界面为 TSF 服务配置告警策略和 Dashboard,步骤如下:

  1. 配置告警策略,通过告警发现问题。

  2. 配置 Dashboard,通过展示的监控指标发现问题。

方式二:查看业务大屏 查看业务大屏,通过微服务列表和接口列表查看当前运行的服务的状态。

操作指引: 在 TSF 控制台通过查看服务依赖拓扑图和接口列表,步骤如下:

  1. 查看服务依赖拓扑图,通过依赖拓扑图发现问题。

  2. 查看服务列表中服务运行健康状态,通过业务请求量、耗时、错误率等发现问题。

步骤二:初步定位

当发现问题后,查看服务监控初步确定是服务实例还是部署组还是接口出现问题。

步骤三:详细排查

初步定位问题后,排障思路如下:

  • 部署组问题:可以考虑程序包版本问题或者查看日志等方式排查

  • 实例问题:可以通过查看日志和 JVM 进程等方式排查 。

  • 接口问题:可以通过查看日志和调用链等方排查 。