阿里巴巴建成全球超大规模数据中心内“RDMA高速网”,以支撑人工智能科学计算

简介: 阿里巴巴数十个数据中心支持RDMA网络,延时可显著降低90%,最大程度满足人工智能、科学计算等场景需求。

最新消息,尽管大多数云计算厂商已经在其数据中心内部部署RDMA(Remote Direct Memory Access)网络,但阿里巴巴已经抢先一步:其数据中心集群内的RDMA网络规模居于全球领先地位,目前已有数十个数据中心支持RDMA网络,延时可显著降低90%,最大程度满足人工智能、科学计算等场景需求。

1

阿里云北京冬奥云数据中心

当用户在阿里云选择高性能云盘ESSD、云原生数据库POLARDB、云超算SCC、机器学习PAI等产品时,均运行在RDMA网络之上。也正因为如此,这些广受欢迎的创新产品背后已经共享了网络的技术红利。

RDMA是目前业内最受欢迎的高性能网络技术,能大大节约数据传输时间,被认为是提高人工智能、超算等效率的关键。数据显示,在未使用RDMA网络时,语音识别训练每次迭代任务时长为650ms至700ms,其中通信时延就占400ms。

为了提高数据传输速度、满足用户需求,亚马逊、微软等主要云厂商都在投入该技术的研发和部署,但鲜有企业实现RDMA在数据中心的大规模应用。

在2016年,阿里巴巴开始投入专项研究,以改造RDMA、提高传输性能。从网卡底层开始设计满足大规模应用的网络,并结合阿里自研交换机实现性能最大化,最终建成全球最大规模数据中心内的“高速网”,使得集群极大地突破了传输速度瓶颈,并将时延显著降低90%。

以2018年天猫双11为例,基于RDMA网络技术的云存储和电商数据库服务器可以从容地应对峰值流量考验。

而上汽集团乘用车也正采用加入高速RDMA互联支持的云超算SCC集群进行模拟仿真,整体提升效率25%。

“RDMA网络已经成为人工智能、科学计算等高性能计算、存储业务的必备技术,我们将继续探索更高带宽的网络技术,未来将部署 100G高速网络,为企业提供稳定、低延时的网络服务。” 阿里巴巴基础设施首席网络架构师蔡德忠向记者表示。

作为全球前三、国内第一的云服务商,阿里云在全球19个地域拥有56个可用区,网络总带宽已达到 PB 级别超大规模,目前正在测试400G 网络的研发,推出的 400G QSFP-DD行业标准已受到全球企业广泛支持。

相关文章
|
3月前
|
人工智能 分布式计算 算法框架/工具
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研究和应用中。阿里巴巴作为全球领先的科技公司,也在AI领域做出了卓越的贡献。今天,就让我们一起来揭开阿里巴巴PAI的神秘面纱,了解这个强大的AI平台如何引领人工智能计算的新篇章。 PAI,全称阿里巴巴公共AI平台,是一个集数据准备、模型开发与训练、模型部署于一体的综合性AI平台。PAI的业务架构分为五层,从基础设施层到业务层,涵盖了AI计算的全过程。
52 2
|
存储 人工智能 运维
超大规模云数据中心对存储的诉求有哪些?
要实现超大规模部署的特性,就对存储有别于普通数据中心或者消费市场的诉求。具体有哪些呢?主要有以下几点,我们针对部分信息展开讨论
|
3月前
|
人工智能 自然语言处理 算法
魔搭城市行 | 南京站 · 「阿里巴巴人工智能大模型&魔搭开源社区交流论坛」成功举办
2024年1月11日下午,阿里巴巴人工智能大模型及魔搭开源社区交流沙龙 · 南京站在南京软件谷云密城L栋成功举办!
|
数据中心
|
存储 人工智能 运维
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
|
数据中心
|
安全 大数据 调度
助力绿色低碳 阿里巴巴与华北电力大学数据中心算力-电力协同调度项目多项成果发布
助力绿色低碳 阿里巴巴与华北电力大学数据中心算力-电力协同调度项目多项成果发布
助力绿色低碳 阿里巴巴与华北电力大学数据中心算力-电力协同调度项目多项成果发布
|
人工智能 大数据
《阿里巴巴人工智能驱动大数据》电子版地址
阿里巴巴人工智能驱动大数据
101 0
《阿里巴巴人工智能驱动大数据》电子版地址
|
数据中心
《阿里巴巴浸没液冷数据中心规范》电子版地址
阿里巴巴浸没液冷数据中心规范
230 0
《阿里巴巴浸没液冷数据中心规范》电子版地址