服务拓扑依赖
最近更新时间: 2025-01-15 17:01:00
操作场景
服务依赖拓扑包含了查询服务之间相互依赖调用的拓扑关系,查询特定集群特定命名空间下服务之间调用的统计结果等功能。
以下视频将为您介绍服务依赖拓扑的使用方法:
操作步骤
查询拓扑关系
- 登录 TSF 控制台。
- 在左侧导航栏选择【运维中心】>【依赖分析】>【服务依赖拓扑】,进入服务依赖拓扑界面。
- 在页面顶部数据中心位置,选择需要查看的服务所属命名空间。
- 下方按钮选择需要依赖拓扑的时间,近30分钟、近10分钟、近5分钟以及选择特定时间段(特定时间段的时间跨度最长为32天)。
- 选择之后将在下方空白处出现对应的服务依赖调用关系,单击右下角【查看图例】可查看相关说明。
- 灰色的圆圈表示主动调用的服务,箭头表示发出调用。
- 绿色的圆圈表示成功调用,黄色表示调用失败。
- 绿色和黄色组成的圆圈,绿色所占的比例是成功调用的比例,黄色为失败的比例。
- 圆圈中的数字表示平均请求耗时(单位:ms)和请求频率(单位:次/分钟)。
- 服务间带箭头曲线上的数字表示两个服务间调用的平均耗时。 在选中时间范围内,consumer-demo 调用了 provider-demo 服务,调用成功比例为 100% (绿色部分),其中平均每次调用耗时3.23ms。
注意:
- 当前服务依赖拓扑图中可以展示消息队列组件(CKafka)、网关组件(微服务网关、API 网关)、数据库(Redis、MySQL)。
- 调用中出现消息队列组件时,暂时无法支持批量消费场景下的服务依赖拓扑图。
查询依赖详情
鼠标放置到图上特定位置可以显示调用依赖详情。
- 单击服务间的依赖线条,弹出面板显示该调用的主被调用方信息、调用数、调用成功率等信息,单击弹出框上的“查看调用链”可以进入到调用链查询界面。
- 单击服务圈内(白色底),可以展示该服务的调用数、调用成功率和平均调用延时,单击弹出框上的“查看调用链”可以进入到调用链查询界面。
查看监控
注意:
要使用该功能,需要更新到1.12.0版本之后的 agent 和 SDK(Spring Cloud),否则无法看到调用概览。
单击依赖详情对话框中【查看图表】,侧边弹出半屏的监控数据。该页面中包括五部分监控信息:
- 请求概览:显示调用的请求量,错误率和平均响应耗时等信息。
- 实例:显示服务实例的请求量,错误率和平均响应耗时等监控信息。
- 部署组:显示部署组的请求量,错误率和平均响应耗时监控信息。
- 接口监控:显示接口的请求量,错误率和平均响应耗时监控信息。
- 事件与服务治理:显示最近发生的5条事件和正在生效的服务治理规则,单击【查看详情】可跳转到对应界面查看具体的事情详情和服务治理规则。
可视化参考
1. 对依赖拓扑图的数据说明: 图中,调用线上的时间,指从上游服务发出请求、到上游服务受到下游服务回包的时间。 调用线上会经历 Client service send、Server service receive、Server service send、Client service receive 的过程。 图中,服务圈内的数据,是站在服务 server 端采集到的。 从平均耗时角度而言,会经历从 Server receive 到 Server send 的过程。 Client-Server 过程可参考下图:
- 服务依赖拓扑使用应用性能指数(Apdex)对应用性能满意度进行量化,并使用不同颜色对不同区间 Apdex 的值进行标识,显示 span 健康度,方便您快速发现应用性能问题。 应用性能指数(Apdex)的计算方式如下:
默认情况下,调用时延说明如下:
- 正常调用:指调用时延小于或等于200ms的调用。
- 慢调用:指调用时延大于200ms小于或等于800ms的调用(4 × 200ms)。
- 极慢调用:指调用时延大于800ms的调用。
Apdex 取值范围说明如下:
Apdex 取值 | 说明 |
---|---|
Apdex > 0.75 | 表示调用延时正常,箭头为灰色。 |
0.75 ≥ Apdex > 0.25 | 表示调用延时较大,箭头为黄色。 |
Apdex ≤ 0.25 | 表示调用延时非常大,箭头为红色。 |
通用参考
Apdex(Application Performance Index)是由 Apdex 联盟开发的用于评估应用性能的工业标准。Apdex 标准从用户的角度出发,将对应用响应时间的表现,转为用户对于应用性能的可量化范围为 0-1 的满意度评价。
Apdex 的原理 Apdex 定义了应用响应时间的最优门槛为 T(即 Apdex 阈值,T 由性能评估人员根据预期性能要求确定),根据应用响应时间结合 T 定义了三种不同的性能表现:
性能表现 | 说明 | 示例 |
---|---|---|
Satisfied(满意) | 应用响应时间低于或等于 T。 | 例如,T 为1.5s,则一个耗时1s的响应结果则可以认为是 Satisfied 的。 |
Tolerating(可容忍) | 应用响应时间大于 T,但同时小于或等于 4T。 | 例如,应用设定的 T 值为1s,则4 × 1=4s为应用响应时间的容忍上限。 |
Frustrated(烦躁期) | 应用响应时间大于 4T。 | - |