阿里云应用监控(ARMS)过程全解析:我们在乎用户每一秒的体验

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 在互联网高速发展的时代,应用成为连接企业与用户的载体,网络购物,实时交易,游戏娱乐,办公邮件等各种各样的使用场景中,网络响应无延迟,用户访问无槽点成为企业应用能否在激烈的市场竞争中脱颖而出的重要影响因素。

在互联网高速发展的时代,应用成为连接企业与用户的载体,网络购物、实时交易、游戏娱乐、办公邮件等各种各样的使用场景中,网络响应无延迟,用户访问无槽点成为企业应用能否在激烈的市场竞争中脱颖而出的重要影响因素。

体验为王时代,应用性能监控盲点成为企业面临的核心问题

据相关研究表明:当页面加载时间从 1 秒到 3 秒,跳出的机会增加了30%左右。1s到5s的机会增加到90%,如果你的网站需要10s的加载,跳出的机会将会超过120%。所以,在这个“用户体验为王”的时代,应用性能管理盲点已经成为企业面临的核心问题之一。

随着现代应用系统变得愈发复杂,越来越多的企业开始将服务往公有云迁移,对于云上应用性能监控的需求激增,基于此,阿里云推出全栈式性能监控服务ARMS,为客户提供涵盖服务层、应用层、用户体验层、业务交易层的性能管理监控产品,价格相较市场而言,不到10%,极具诱惑力。

这样一款极具价格竞争力的产品,性能上是否也有优于市场的表现呢?结合实例,我们进行使用过程全解析,真实展示这款产品的使用体验。

步骤一:多渠道实时报警,随时掌握网站访问情况

“Ding!网站无法访问,请速查!“开发人员接到ARMS系统push、短信、邮件等全方位报警信息,得知企业门户网站无法访问,立即调出ARMS监控系统开始排查任务。

样本分布图.png | left | 827x484

图1:样本分布图

从样本分布图来看,用户在访问站点的时候,在最近的一段时间内有245个用户访问超时,响应时间在5-5.5s 之间。对于门户网站而言,5s以上的响应时长意味着用户流失,对于网站营收来说影响巨大,开发人员必须迅速找出问题点。

步骤二:网站响应超时,查看API接口成功率

接口成功率下降.png | left | 827x482

                                 

图2:API请求页

 用户访问超时,可能的问题在于前端页面加载时间过长,或者后端服务层出现问题。从 “API 请求”页面可以看出,这段时间内,API请求成功率有大幅下降,所以基本判断是后端出现问题导致用户访问超时。

步骤三:无需修改应用代码,快速定位接口问题

lALPBbCc1agD8bbNA9bNBo0_1677_982.png | left | 827x484

                                 

图3:后端架构图

应用可以通过挂载javaagent的方式接入, 不需要任何代码改动。对代码是0侵入的,只需要在启动参数中 -javaagent 挂载一个应用监控的agent,从应用监控架构总览中可以看出有一条红色标注的线条,意味着主要问题源于此,红色的线表明:问题出现在 Dubbo 应用 item-center中。

步骤四:接口拓扑图概览,清晰定位调用异常

lALPBbCc1agCd5vNA9XNBo8_1679_981.png | left | 827x483

                               

图4:item-center应用接口图

这时,开发人员将视角切换到 item-center 应用,并定位是哪个接口出现问题,从item-center 的接口拓扑图可以具体定位到:该接口调用47.104.139.155:8081出现异常。对于应用负责人而言,已经可以定位到是应用的哪个依赖出现问题。

步骤五:异常故障详情图,快速知晓故障类型

lALPBbCc1agCd6_NA9TNBpA_1680_980.png | left | 827x482

                    

图5:异常故障图

异常页面中可以看出:存在两个异常,“Read time Out“的标注揭示了故障类型,主要是由于网络外部调用超时导致。

lALPBbCc1aviC0DNA9TNBo8_1679_980.png | left | 827x483

                                 

图6:traceID详情图

步骤六:traceID异常,追踪代码级别情况

从跟踪的详情图来看,该接口有很多的调用 traceID并且有部分的 traceID 有异常,耗时在2347ms。这里可将问题对应到前端访问时延问题上,用户访问时间在5-5.5s 之间。打开一个 异常traceID,查看这个超时在代码级别系统情况。

lALPBbCc1aviDVbNA9TNBo8_1679_980.png | left | 827x483

                            

图7:代码级别耗时详情图

步骤七:代码级别详情图,清晰了解入参及异常

再进入代码级别的耗时详情图,可以清晰看到具体哪一步消耗了多少的时长,而且还可以看到方法的入参及异常。

lALPBbCc1agCd6nNA9TNBpA_1680_980.png | left | 827x482

                                   

图8:SQL解析图

步骤八: SQL详情页,排查数据库运行情况

最后再次确认数据库是否与该次故障存在关联,打开应用监控SQL 详情页,在数据库页面中,可以看出这次故障与数据库没有关系,数据库运行正常。

通过一系列步骤的问题排查与追踪,开发人员全程只需耗时1-2min即可定位页面性能出现问题的根本原因,快速采取措施恢复应用。

从使用全过程来看,ARMS能够帮助企业进行关键业务应用进行监测、优化,快速提高应用的可靠性和质量,在大幅降低IT成本的同时,为用户带来良好的访问体验,帮助企业赢得用户,赢得市场。

相关文章
|
12天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
267 0
|
1月前
|
Arthas 弹性计算 运维
阿里云ECS监控服务
阿里云ECS监控服务
401 2
|
2月前
|
弹性计算 人工智能 安全
带你读《从基础到应用云上安全航行指南》——阿里云产品专家教你如何全方位构建ECS安全体系(3)
带你读《从基础到应用云上安全航行指南》——阿里云产品专家教你如何全方位构建ECS安全体系(3)
431 0
|
2月前
|
弹性计算 安全 网络安全
带你读《从基础到应用云上安全航行指南》——阿里云产品专家教你如何全方位构建ECS安全体系(2)
带你读《从基础到应用云上安全航行指南》——阿里云产品专家教你如何全方位构建ECS安全体系(2)
478 0
|
2月前
|
弹性计算 Ubuntu Windows
2024年部署幻兽帕鲁/Palworld服务器多少钱?阿里云帕鲁主机优惠价格解析
对于热爱《幻兽帕鲁》的玩家们来说,一个稳定、高效的游戏服务器是畅享游戏乐趣的关键。那么,搭建一个这样的服务器需要多少钱呢?别担心,阿里云已经为大家准备了超值的幻兽帕鲁Palworld游戏服务器!
|
3天前
|
人工智能 Serverless 数据处理
利用阿里云函数计算实现 Serverless 架构的应用
阿里云函数计算是事件驱动的Serverless服务,免服务器管理,自动扩展资源。它降低了基础设施成本,提高了开发效率,支持Web应用、数据处理、AI和定时任务等多种场景。通过实例展示了如何用Python实现图片压缩应用,通过OSS触发函数自动执行。阿里云函数计算在云计算时代助力企业实现快速迭代和高效运营。
3 0
|
8天前
|
云安全 数据采集 安全
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
阿里云提供两种关键安全产品:Web应用防火墙和云防火墙。Web应用防火墙专注网站安全,防护Web攻击、CC攻击和Bot防御,具备流量管理、大数据防御能力和简易部署。云防火墙是SaaS化的网络边界防护,管理南北向和东西向流量,提供访问控制、入侵防御和流量可视化。两者结合可实现全面的网络和应用安全。
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
|
18天前
|
消息中间件 Kubernetes Kafka
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
14 0
|
22天前
|
域名解析 弹性计算 网络协议
阿里云DNS常见问题之确认域名是否在Private zone解析失败如何解决
阿里云DNS(Domain Name System)服务是一个高可用和可扩展的云端DNS服务,用于将域名转换为IP地址,从而让用户能够通过域名访问云端资源。以下是一些关于阿里云DNS服务的常见问题合集:
|
22天前
|
域名解析 缓存 网络协议
阿里云DNS常见问题之新购域名阿里云DNS无法解析如何解决
阿里云DNS(Domain Name System)服务是一个高可用和可扩展的云端DNS服务,用于将域名转换为IP地址,从而让用户能够通过域名访问云端资源。以下是一些关于阿里云DNS服务的常见问题合集:

推荐镜像

更多