阿里云自研神龙架构,如何解决云计算行业难题?

简介:

_

“神龙X-Dragon架构”是阿里云自研的软硬件一体化计算架构,包含“X-Dragon虚拟化芯片”、“X-Dragon Hypervisor系统软件”、以及“X-Dragon服务器硬件架构”,深度融合了物理机和虚拟机特性,可兼顾虚拟机的弹性资源、分钟级交付、全自动运维和物理机的性能优势、完整特性和硬件级隔离,为用户了提供一种新型的计算资源交付方式。

2016年,阿里云启动了“神龙X-Dragon架构”新一代IaaS计算平台项目,其采用了软硬件协同设计方法,从云计算IaaS领域重新去审视芯片、硬件和软件的定义与协同创新。

2017年10月,阿里云在杭州云栖大会上首次公布了基于神龙X-Dragon架构的裸金属服务器。

2019年9月,阿里云正式发布第三代自研神龙架构,贯穿整个弹性计算平台,全面支持ECS虚拟机、云原生容器等,并在IOPS、PPS等方面提升5倍性能,用户能在云上获得超越传统物理机100%的计算能力。

背景:云计算的历史性难题

从计算机诞生到90年代,计算资源都是作为“可计划性”的资源来使用。然而,互联网时代的到来,一个爆发性事件,就有可能让已有的计算资源招架不住。

云计算的优势之一在于计算资源使用收放自如。这一能力就得益于数十年前诞生的虚拟化技术,它可以通过软件定义的方式来管理数据中心的计算资源。

一直以来,云服务的底层依旧是通用芯片加标准虚拟化软件组合:Intel的X86芯片 + VMware、Redhat、Citrix等开源组织或者商业组织的虚拟化软件,这一组合最终可以根据企业的需求来输出计算能力,即便是数万核计算能力也可以在分钟级内实现。

云计算的便利性在人工智能领域体现得淋漓尽致。以图像识别领域的ImageNet竞赛为例。2015年时,冠军模型ResNet包含了上千万的参数,使用线下服务器完成一个完整的训练需要14天;而现在,同样的模型在云上完成相同的任务仅需要几个小时。

当然,在光鲜亮丽的外表之下,云计算也有着其与生俱来的缺点。

虚拟化会如同黑洞般吸收走一部分机器的性能,也就是云上的弹性能力是以牺牲性能来换取的。举个例子,一台95核的服务器上运行云服务器,可能需要占用8核32G来抵消虚拟化的开销,留给用户使用的只剩88核和剩余内存,造成了算力的极大浪费。不仅如此,在同一服务器上的云服务器之间资源调度无法做到完全的隔离,存在资源抢占的情况,因此其性能也不稳定。

与此同时,整个计算产业链也在潜移默化中发生改变:摩尔定律失效阻碍了通用芯片的发展,基于GPU、FPGA、ASIC等新芯片的定制服务器成为潮流,而传统的虚拟化技术难以跟随这些“非主流”硬件的步伐。

这被认为是云计算行业的阿克琉斯之踵。

尽管云厂商、芯片商、虚拟化厂商都在试图尝试新的方法,例如英特尔等芯片商提供了硬件级别的虚拟化支持,虚拟化技术本身也从Xen演进到了KVM,但由于软件厂商、硬件厂商、系统集成商各司其职,这种层层之间割裂的模式最终未能在根本上解决问题。

这似乎成为了云计算厂商身上的一道魔咒,底层架构的创新迫在眉睫。

阿里云研发下一代虚拟化架构

虚拟化损耗是云计算自诞生以来就有的缺点。阿里云一直以来都在降低云计算虚拟化的损耗,逼近极致。在2016年双11的技术复盘会上,时任阿里巴巴集团CTO张建锋提出了极为苛刻的要求——把虚拟化开销也降低到0。 这看似是违背能量守定律的,即便在学术界也没有相关研究。

最终阿里云团队另辟蹊径,想出了新的解决方案——通过专用芯片来解决虚拟化开销。

从技术的实现思路看,阿里云研发团队需要重构一套计算架构,通过研发一个新的芯片组来为每个节点提供功能性和管理性的需求支持,在此基础上,再研发出一套新的服务器硬件,和配套的系统软件;然后再将这套技术架构融入到现有的产品设计中去。

图灵奖得主、加州伯克利大学计算机科学教授David Patterson曾表示:”随着摩尔定律的终结,为了获得更快性能的计算机,唯一方法就是改进计算机的设计或‘架构’。“

从前,因产业链上下游企业各司其职,虚拟化损耗一直存在。

软硬协同架构设计的理念已然飘向了云端,体量大的云厂商服务器部署规模达到百万级别,意味着可以定制任何硬件,而云厂商也开始重新审视芯片、硬件和软件的协同创新。要想收获软硬融合的技术红利,重要的前提是可以自定义芯片,自主研发硬件。这便是阿里云所做之事。

2017年10月,阿里云在杭州云栖大会上首次公布了基于神龙X-Dragon架构的裸金属服务器。

2019年9月,阿里云正式发布第三代自研神龙架构,贯穿整个弹性计算平台,全面支持ECS虚拟机、云原生容器等,并在IOPS、PPS等方面提升5倍性能,用户能在云上获得超越传统物理机100%的计算能力。

_3

神龙X-Dragon架构的特点

阿里云作为IaaS全球排名前三的厂商,ECS弹性计算产品积累非常庞大的规模,在发展过程中,研发团队对开源Xen/KVM有着非常深刻地认知和理解,同时也注意到了业界芯片和软硬件一体化的发展趋势,从阿里云的神龙X-Dragon架构来看,阿里云定制研发了专用的服务器,研发了专用的虚拟化芯片,开发了专用的MOC卡,开发了整套配到的软件,从BIOS到客户机软件,到上层的整体调度软件等一整套复杂的系统。

moc_

MOC卡是神龙架构的灵魂所在。这张卡完全由阿里巴巴自主设计。 X-Dragon芯片是装在弹性裸金属服务器中的MOC卡的核心。这个阿里云自研的MOC卡拥有独立的处理、存储、I/O等单元,MOC卡承担了原来通过软件实现的网络、存储以及外围设备的虚拟化。而神龙服务器的的主板也是阿里云定制的版本,专门针对MOC卡进行优化,以便X-Dragon Hypervisor可以方便地管理整个机器。

在这样的构架下,每台神龙服务器,可以像虚拟机一样被X-Dragon Hypervisor调用,创建和释放一台神龙弹性裸金属服务器在阿里云控制台中和创建一台ECS实例是一样的。但是由于这种调用是通过硬件来实现的,所以基本没有性能开销整个机器的运行性能和物理机无异。

与此同时,神龙服务器的外部云盘存储、VPC网络等资源,都通过MOC卡支持。低速的外围设备,是现代服务器主要的性能瓶颈,等待硬盘等的存储消耗掉大量计算资源。神龙构架的做法,是将该部分功能,通过硬件直接独立出去,offload到MOC卡上,因为使用了专属芯片硬件,其效率非常高,而且实现了和阿里云原有的云计算体系的完全兼容。神龙裸金属服务器可以像云主机一样,通过挂载镜像进行初始化,还可以通过OpenAPI操作,完全免去了人肉运维的痛苦,使用效率极高,和一台普通ECS使用体验基本相同。

这样一来,神龙弹性裸金属服务器便克服了上面提到的公有云遇到的几个问题。
首先,神龙弹性裸金属服务器没有软件虚拟化带来的性能开销,可以完全发挥处理器和内存的性能。
其次,神龙弹性裸金属服务器的资源是独占的,其性能非常稳定,不会出现性能起伏不定的状况。
第三,神龙弹性裸金属服务器支持嵌套虚拟化,主流的虚拟化系统都可以在上面运行。

神龙云服务器在克服传统云计算主机缺点的同时,又保留了云主机的优点,比如上面提到的弹性部署、API操作、镜像启动、VPC网络等特性一样不少。

一言以蔽之,神龙弹性裸金属服务器兼备物理机的高性能和云的弹性。

神龙X-Dragon架构的应用场景

神龙X-Dragon架构“快”的特点,让它几乎适合承担从轻量级计算到高性能计算所有的云计算任务,例如可以支持ECS,还可以通过灵活的配置,组成计算力强大的超级计算集群,为HPC高性能计算提供驱动力。

以AI人工智能为例,训练一个模型可能需要数天甚至数周时间,这在现在这个分秒必争的社会是不能容忍的。传统的超算面对这类场景也束手无策,通过异构计算集群来加速训练是工业界和学术界的最常用的途径。而神龙则把异构超算能力带到了云上,可以轻松满足这种大算力场景的需求。

大规模计算集群性能损耗通常在50%左右,而基于神龙架构的超算异构集群可以最大限度发挥芯片的计算性能,提供堪比超算中心的并行计算资源。

基于神龙裸金属服务器的异构超算集群SCCGN6,结合低延时RDMA网络、高性能并行文件系统CPFS以及分布式加速框架Ali-Perseus(擎天),最高可以实现100%的性能提升,从而最大限度发挥芯片的计算性能。以ImageNet竞赛的128万张图片的数据集为例,用普通计算资源训练ResNet50模型,如要达到75%的精度需要数天甚至一周的时间,而使用神龙异构超算集群,模型训练可以缩短到几分钟。

不仅如此,神龙还非常适合目前最流行的容器技术。就目前来看,神龙裸金属服务器运行容器对比物理机有10%-30%的性能优势。容器技术是当下最热门的技术,几乎所有的互联网公司都或多或少的应用容器技术来部署自己的服务,而神龙裸金属服务器的种种特性,正好和容器技术紧密结合,提供超越预期的性能。

神龙(X-Dragon)架构已大规模应用于阿里巴巴集团淘宝、天猫、菜鸟等核心业务,满足了双11等大规模流量需求,在阿里巴巴All in Cloud战略中,也全部采用了神龙产品方案。

对外该架构服务于各领域企业,家居工业互联网代表企业三维家已全部采用神龙产品实现全面上云,渲染效率比线下IDC集群高5%-8%;汽车领域知名企业上汽通用使用神龙SCC超算集群,汽车仿真计算效率提升25%;安世亚太基于SCC集群为客户提供HPC解决方案,总体成本下降20%以上;吉利汽车制造企业通过使用神龙云服务器集群显著提升仿真效率近三成,缩短车型设计和推出市场时间若干个月。

参考资料:
阿里造“神龙”
阿里云发布第三代神龙架构
阿里云弹性裸金属服务器-神龙架构(X-Dragon)揭秘
云计算史上的第一次开箱直播,阿里云神龙技术架构首次全方位曝光

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
筱洺
+关注
目录
打赏
0
5
4
4
15
分享
相关文章
阿里云资深架构师经验分享——DevSecOps最佳实践
本文将分享阿里云在DevSecOps中设计环节的实践经验,希望能够让大家理解阿里云是如何保障产品安全水位,并希望这些经验能够帮助到正在尝试落地DevSecOps解决方案的企业。
559 167
阿里云资深架构师经验分享——DevSecOps最佳实践
阿里云SLB深度解析:从流量分发到架构优化的技术实践
本文深入探讨了阿里云负载均衡服务(SLB)的核心技术与应用场景,从流量分配到架构创新全面解析其价值。SLB不仅是简单的流量分发工具,更是支撑高并发、保障系统稳定性的智能中枢。文章涵盖四层与七层负载均衡原理、弹性伸缩引擎、智能DNS解析等核心技术,并结合电商大促、微服务灰度发布等实战场景提供实施指南。同时,针对性能调优与安全防护,分享连接复用优化、DDoS防御及零信任架构集成的实践经验,助力企业构建面向未来的弹性架构。
168 76
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
105 12
阿里云通用算力型U1实例怎么样?u1实例技术架构、场景适配与优惠价格参考
阿里云服务器ECS 通用算力型u1实例2核4G,5M固定带宽,80G ESSD Entry盘,企业用户专享优惠价格199元1年,很多用户关心这个款云服务器怎么样?阿里云通用算力型U1实例自推出以来,凭借独特的"均衡算力+智能调度"设计理念,在IaaS市场开辟出差异化的竞争赛道。本文将通过技术架构解析、典型场景适配分析、全生命周期成本测算三个维度,全面解构这款热门云服务器实例的核心价值,以供参考和选择。
基于阿里云的开源应用智能管理架构设计与工程实践
本文以Websoft9技术方案为例,探讨企业级应用管理的范式。通过解析开源应用管理面临的部署复杂性、运维低效性和知识碎片化三大挑战,提出基于阿里云的三层架构:智能应用管理门户、核心功能层和基础设施层。文章详细阐述了应用编排标准化(IaC实践)、智能运维体系构建及知识资产数字化的技术实现路径,并结合金融与制造行业的案例,展示解决方案的实际效果。最后提供开发者资源与工具链支持,助力企业高效管理应用。
127 1
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
129 3
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等