黑科技揭秘:百种异常随机注入,专有云为何稳如泰山

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。

关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。

百种异常现场随机注入破坏系统

image001

继去年跑了分、断了电,在9月19日下午的杭州云栖大会技术主论坛现场,专有云现场演示稳定性升级版,在现场搭建的专有云“企业号”数据中心系统上随机注入异常搞破坏。该数据中心由8大品牌服务器搭建,模拟了客户真实的复杂生产环境,同时现场直播应用便搭载在该数据中心的系统上,在注入异常后将直观的通过观察直播是否卡顿来判断专有云系统是否真的稳定。

image003

现场马劲让助手向观众席中扔出两只猴子玩偶,抢到的观众可以在现场呈现的1-100个异常中随机选取一个异常注入,两位观众分别选择了19号和66号,分别代表的是“ECS云产品网络传输包乱序比例陡增”,模拟ECS网络不稳定,网络急速恶化,传输包乱序陡增的场景,以及“SLB云产品网络传输时延陡增”,模拟SLB所在网络不稳定,传输出现严重恶化,时延陡增的场景。在分别注入这两个异常场景后,直播视频仍然保持顺畅毫无卡顿。这是因为专有云系统日常就是在通过注入这类异常收集反馈进行调整,从而不断打磨系统构建出“专有云免疫系统”。

似乎是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了极端环境下的超级异常——核心ECS集群局部网络异常且另一台ECS计算资源饱和。“这模拟了业务高峰期服务器已经超高负载时的网络故障,这类情况极易引发系统雪崩,一旦雪崩恢复时间很长。”马劲解释道。演示现场阿里云负载均衡的快速隔离及弹性伸缩服务智能资源分配及时发挥了作用,现场应用却快速恢复正常,观众席响起热烈的掌声。

image005

打磨产品稳定性,阿里云没有好办法只有“笨办法”

阿里云专有云承载着众多企业的关键业务,深知肩责任之重,也深知稳定性对客户业务意味着什么,因此打磨稳定性是专有云不渝的追求。然而,过去大部分系统都搭建在DIY系统上,不具备全系统演练的条件,而今天在阿里云这个“云计算机”上,可以在准生产环境下进行全方位立体化的演练。

混沌工程是专有云针对理论科学搭建系统同时利用实践科学不断打磨系统的最佳组合。阿里云异常库中拥有高达12600种的异常场景,一年365天都在全方位立体化的不断注入打磨系统,以提前帮助客户排除系统中80%的故障。当别人还困扰于硬件层级的异常发生该如何处理时,阿里云专有云已经在用更深层级的组合异常打磨系统。这一切的投入和执着锤炼稳定性都只为持续给客户提供更稳定更可靠的产品。

现实往往不按照故事的剧本走,阿里云没有“好办法”只有笨办法,那就是引入‘混沌工程’理念,在仿真的生产环境中做千倍高频的异常注入,对不符合预期的系统反馈不断优化,从而持续打磨稳定性,助力客户业务稳定性提升。

了解更多产品降价信息请戳链接
https://yunqi.aliyun.com/2018/hangzhou/product
了解更多阿里云产品请戳链接
https://www.aliyun.com/product/list?utm_code=p_2018090501
专属小游戏,《我和老板,那些不可描述的需求》等你来~
https://yq.aliyun.com/articles/641567

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
机器学习/深度学习 算法 API
视觉智能平台常见问题之算法私有化部署交付给公司内部运行如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
23 1
|
6月前
|
传感器 机器学习/深度学习 中间件
CLAID:关闭人工智能和数据收集的循环——一个用于智能边缘云和数字生物标记应用的跨平台透明计算中间件框架
CLAID:关闭人工智能和数据收集的循环——一个用于智能边缘云和数字生物标记应用的跨平台透明计算中间件框架
95 0
|
存储 弹性计算 安全
《阿里云代码安全白皮书》5个维度应对3类代码安全问题
在互联网快速发展的时代,代码是企业最核心的资产,代码安全也是企业资产安全最重要部分;为了保护企业代码安全,各公司使出的手段也是五花八门。阿里云云效联合阿里云的代码安全能力从基础安全、备份与恢复、安全与加密、审计与洞察、代码安全检测5个维度,达成「进不来」、「搞不坏」、「译不破」、「带不走」、「赖不掉」的效果。
1858 1
《阿里云代码安全白皮书》5个维度应对3类代码安全问题
|
存储 运维 安全
智能制造的灾备问题如何解决?康斯特借阿里云给出答案
智能制造时代,依托于阿里云存储产品,康斯特正在创造出更多的可能。
2045 0
智能制造的灾备问题如何解决?康斯特借阿里云给出答案
|
新零售 安全 持续交付
现有的静态代码扫描体系弱爆了?看看阿里的吧!
本文由淘宝技术部高级无线开发工程师详细剖析了手机淘宝的现状及挑战。针对手淘问题发现被动、感知模糊和缺乏经验积累等众多问题,阿里精心研发推出了定制化的移动静态代码扫描体系!那么该自行研发的扫描体系与已有的在线代码扫描工具相比有何优势呢?阿里将其应用于EMAS持续交付解决方案中,用数据说明实力!
7113 0
|
数据中心 容器
容器技术在面向金融IT的做法是否有用Wise2C的解说
业界有一个说法,一流的企业是做平台,二流的企业时做产品,三流的企业来做服务。目前,我们暂时把自己定位为一个做产品的公司。并且我们是基于行业内一个清晰的标准,为客户提供所需要的产品。
1120 0
|
SQL NoSQL 测试技术
互联网模式下的测试数据中心,小白也能高效构造数据
11月2日,云效第三期Work Like Alibaba系列直播开启,阿里巴巴研发效能事业部云效技术专家何卫龙,分享了《测试数据中心-互联网模式下新型的数据准备引擎》,主要解决测试过程中数据准备困难,以及如何提升数据准备效率的思路和方法。
6295 0
|
云安全 监控 安全
云安全支撑技术之本机程序行为判断技术
本文讲的是云安全支撑技术之本机程序行为判断技术,今天我要讲的是 基于行为的恶意代码检测系统,这个技术大家都不陌生,这个技术成为我们瑞星安全策略整个实施辅助的资深技术
1268 0