服务拓扑依赖

最近更新时间: 2024-10-17 17:10:00

操作场景

服务依赖拓扑包含了查询服务之间相互依赖调用的拓扑关系,查询特定集群特定命名空间下服务之间调用的统计结果等功能。

以下视频将为您介绍服务依赖拓扑的使用方法:

https://cloud.tencent.com/edu/learning/quick-play/2039-24428?source=gw.doc.media&withPoster=1&notip=1

操作步骤

查询拓扑关系

  1. 登录 TSF 控制台

  2. 在左侧导航栏选择【运维中心】>【依赖分析】>【服务依赖拓扑】,进入服务依赖拓扑界面。

  3. 在页面顶部数据中心位置,选择需要查看的服务所属命名空间。

  4. 下方按钮选择需要依赖拓扑的时间,近30分钟、近10分钟、近5分钟以及选择特定时间段(特定时间段的时间跨度最长为32天)。

  5. 选择之后将在下方空白处出现对应的服务依赖调用关系,单击右下角【查看图例】可查看相关说明。

  • 灰色的圆圈表示主动调用的服务,箭头表示发出调用。

  • 绿色的圆圈表示成功调用,黄色表示调用失败。

  • 绿色和黄色组成的圆圈,绿色所占的比例是成功调用的比例,黄色为失败的比例。

  • 圆圈中的数字表示平均请求耗时(单位:ms)和请求频率(单位:次/分钟)。

  • 服务间带箭头曲线上的数字表示两个服务间调用的平均耗时。 在选中时间范围内,consumer-demo 调用了 provider-demo 服务,调用成功比例为 100% (绿色部分),其中平均每次调用耗时3.23ms。

注意:

  • 当前服务依赖拓扑图中可以展示消息队列组件(CKafka)、网关组件(微服务网关、API 网关)、数据库(Redis、MySQL)。
  • 调用中出现消息队列组件时,暂时无法支持批量消费场景下的服务依赖拓扑图。

查询依赖详情

鼠标放置到图上特定位置可以显示调用依赖详情。

  • 单击服务间的依赖线条,弹出面板显示该调用的主被调用方信息、调用数、调用成功率等信息,单击弹出框上的“查看调用链”可以进入到调用链查询界面。

  • 单击服务圈内(白色底),可以展示该服务的调用数、调用成功率和平均调用延时,单击弹出框上的“查看调用链”可以进入到调用链查询界面。

查看监控

注意:

要使用该功能,需要更新到1.12.0版本之后的 agent 和 SDK(Spring Cloud),否则无法看到调用概览。

单击依赖详情对话框中【查看图表】,侧边弹出半屏的监控数据。该页面中包括五部分监控信息:

  • 请求概览:显示调用的请求量,错误率和平均响应耗时等信息。

  • 实例:显示服务实例的请求量,错误率和平均响应耗时等监控信息。

  • 部署组:显示部署组的请求量,错误率和平均响应耗时监控信息。

  • 接口监控:显示接口的请求量,错误率和平均响应耗时监控信息。

  • 事件与服务治理:显示最近发生的5条事件和正在生效的服务治理规则,单击【查看详情】可跳转到对应界面查看具体的事情详情和服务治理规则。

可视化参考

1. 对依赖拓扑图的数据说明: 图中,调用线上的时间,指从上游服务发出请求、到上游服务受到下游服务回包的时间。 调用线上会经历 Client service send、Server service receive、Server service send、Client service receive 的过程。 图中,服务圈内的数据,是站在服务 server 端采集到的。 从平均耗时角度而言,会经历从 Server receive 到 Server send 的过程。 Client-Server 过程可参考下图:

  1. 服务依赖拓扑使用应用性能指数(Apdex)对应用性能满意度进行量化,并使用不同颜色对不同区间 Apdex 的值进行标识,显示 span 健康度,方便您快速发现应用性能问题。 应用性能指数(Apdex)的计算方式如下:

默认情况下,调用时延说明如下:

  • 正常调用:指调用时延小于或等于200ms的调用。

  • 慢调用:指调用时延大于200ms小于或等于800ms的调用(4 × 200ms)。

  • 极慢调用:指调用时延大于800ms的调用。

Apdex 取值范围说明如下:

Apdex 取值 说明
Apdex > 0.75 表示调用延时正常,箭头为灰色。
0.75 ≥ Apdex > 0.25 表示调用延时较大,箭头为黄色。
Apdex ≤ 0.25 表示调用延时非常大,箭头为红色。

通用参考

Apdex(Application Performance Index)是由 Apdex 联盟开发的用于评估应用性能的工业标准。Apdex 标准从用户的角度出发,将对应用响应时间的表现,转为用户对于应用性能的可量化范围为 0-1 的满意度评价。

Apdex 的原理 Apdex 定义了应用响应时间的最优门槛为 T(即 Apdex 阈值,T 由性能评估人员根据预期性能要求确定),根据应用响应时间结合 T 定义了三种不同的性能表现:

性能表现 说明 示例
Satisfied(满意) 应用响应时间低于或等于 T。 例如,T 为1.5s,则一个耗时1s的响应结果则可以认为是 Satisfied 的。
Tolerating(可容忍) 应用响应时间大于 T,但同时小于或等于 4T。 例如,应用设定的 T 值为1s,则4 × 1=4s为应用响应时间的容忍上限。
Frustrated(烦躁期) 应用响应时间大于 4T。 -