【云吞铺子】性能抖动剖析(一)

简介: 《云吞铺子-故障排查案例精选》重磅上线!首期我们将聚焦系统类常见问题——性能抖动,阿里云高级技术专家江冉将分享多年故障排查心得体会与经典案例实战经验。完成学习,你就是明日技术大牛!

《云吞铺子-故障排查案例精选》重磅上线!首期我们将聚焦系统类常见问题——性能抖动,阿里云高级技术专家江冉将分享多年故障排查心得体会与经典案例实战经验。完成学习,你就是明日技术大牛!

网络抖动案例是一类处理难度较大的问题,原因主要是很多抖动发生的频率不高,且持续时间非常短极限情况可能仅有100ms以下,而很多用户的业务应用对实时性要求非常高,因此对此类在百毫秒的延迟也会非常敏感。本期云吞铺子记录的是一次多团队协作处理的抖动问题的过程,由于用户的执着,也使得我们在这个案例分析得较为深入,希望对大家今后的此类案例的处理有所启发。

问题现象

让我们先来看看问题现象吧,用户的应用日志记录了百毫秒甚至1-2秒级别的延迟,而且发生较为频繁,由于业务的实时性要求较高,因此对业务的影响较大,当然其中也影响到了用户对迁云的信心。

初步排查

在用户通过应用层面的排查怀疑问题来源于虚拟网络环境的时候,我们需要做的第一件事就是首先要将问题简单化。这一步是非常必要的,因为我们对用户的应用不可能有非常深入的了解,所以用户的应用日志具体含义和记录方式对我们来说更像黑盒。我们所要做的是将问题现象转移到我们常见的系统组件上来,比如简单到ping。所以我们第一件所做的事情就是编写脚本进行两台机器的内网互ping,并将每次ping的延迟记录到文件。选择ping当然也是由于ping的间隔是可以设置到百毫秒的,比较容易说明问题。

在互ping的测试中我们确实发现有百毫秒以上的延迟,那么随后我们为了排除物理网络的影响,选择一台机器进行对网关的ping测试,同样发现了类似的延迟:

972e4efd5dee3da1bbb10b031c942aa8

来看看上面的ping测试结果吧,初看也仅仅是一些百毫秒延迟的集中发生而已,但是仔细观察就会发现每次发生都有这样的情况,就是延迟在一组连续的ping上发生的,并且延迟是倒序排列的。那么这意味着什么呢?

详细排查过程请查看视频。

相关文章
|
6月前
|
负载均衡 测试技术
红包雨高并发压测记录(200台机器压测实录)
红包雨高并发压测记录(200台机器压测实录)
|
6月前
|
存储 监控 网络安全
云服务器网速很差的原因有哪些方面
云服务器网速很差的原因有哪些方面
|
Java 存储 jvm-sandbox
海量流量下,淘宝如何进行稳定的流量回放?
随着业务的不断发展, 整个淘系的服务端已经有数千个应用,在淘宝已经有非常大的应用数量和变更次数的基础上, 对流量回放也有更高的要求。那么在不断尝试流量的录制与回放的过程中,我们遇到了什么问题?那么在不断尝试的过程中,我们遇到了什么问题?我们由从中得到了什么启示?流量录制回放又能给我们带来多少收益?
9884 0
|
12月前
|
JavaScript 前端开发 C++
Web性能优化之 延迟与带宽
速度是关键 延迟的构成 光速与传播延迟 延迟的最后一公里 网络核心带宽 VS 网络边缘带宽 目标:高带宽和低延迟
|
数据库
《云数据库超大流量峰值保障最佳实践》电子版地址
云数据库超大流量峰值保障最佳实践
52 0
《云数据库超大流量峰值保障最佳实践》电子版地址
|
缓存 监控 对象存储
阿里云服务器1M带宽并发数支撑多少人同时在线?
阿里云服务器1M带宽可支撑多少人同时在线?很多用户吐槽1M带宽小水管,事实上1M带宽也能支撑日均2000IP的网站,云服务器吧来说说阿里云服务器1M带宽并发数及同时在线人数计算
2605 0
阿里云服务器1M带宽并发数支撑多少人同时在线?
|
弹性计算 运维 NoSQL
战疫期间,钉钉如何抗住暴增的百倍流量?
疫情期间,在线教育、在线办公需求持续井喷,钉钉作为很多企业首选的在线办公软件,用户量激增,特别是钉钉视频会议、直播的需求随之飙升。同时,钉钉为了响应教育部门“停课不停学”的号召,宣布老师们可以免费试用钉钉在线课堂。
1766 0
|
测试技术
【云吞铺子】业务系统性能压测最佳实践(三)--如何分析压测结果
#云吞铺子--双11最佳技术实践系列# 本期继续为大家带来阿里云在本次双11实战中沉淀的优秀经验和满满干货!由霄翎为您深度剖析如何分析压测结果,技术干货,不可错过哦!
|
测试技术
【云吞铺子】业务系统性能压测最佳实践(二)--业务压测注意事项
云吞铺子--双11最佳技术实践系列# 本期继续为大家带来阿里云在本次双11实战中沉淀的前沿经验和满满干货!由阿里云技术高手霄翎为您深度阐述云上业务压测全流程注意事项!大牛出品,必属精品!