阿里云袁经凯:混合云场景下的高性能存储

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 介绍阿里云的云存储网关,让云和本地存储形如一体

2018存储半导体大会上,阿里云高级技术专家袁经凯带来了题为《混合云场景下的的高性能存储》的主题演讲,介绍了阿里云在混合云场景下高性能存储的实践。

其核心的内容是:如何将本地传统的存储系统与公共云更好地融合在一起,使得用户无需关心数据的物理位置,只需要聚焦具体的业务实现。为此,不得不从技术手段克服很多问题,特别是本地和云端的数据自由流动,以及面向应用的存储性能一致性等。在具体实践中,阿里云实现了分布式的高性能存储网关,但这个网关跟我们原来认识的网关又不一样,究竟有什么不一样呢?我们还是来看看,他是怎么说的吧。

以下是现场速记:


大家好,我叫袁经凯,我来自阿里云,主要负责阿里云混合云存储架构方面的一些工作。这两天我们听到了许多关于高性能存储介质和Fabric优化的内容。今天我的主题是混合云场景下的的高性能存储,尝试从另外一个角度看待不断演进的高性能介质,也即是在具体场景下,特别是在和云结合的场景下,如何拥抱高性能存储带来的变化?以及相衍生的新的存储产品形态等,这是我们当前考虑的问题。

我们首先回顾一下过去存储介质的发展,从早期的Hard Drive,到后来的SSD,以及最新的Persistent Memory(持久内存)。Hard Drive大概在十毫秒左右的时延,到SSD是亚毫秒的时延,到Persistent Memory(持久内存)直接到了纳秒级的时延表现,可以看到整个存储介质是在快速的进化当中。而从另外一个角度讲,我们对存储介质的性能行为定义也在发生着变化。不光是单纯的IOPS或者Throughput,现在也更加关注性能的可靠性和稳定性方面。

而存储介质只是存储系统的一部分,存储系统的不同的部署形态对整个存储性能也有很大的影响或约束。早期单机的类似DAS直连的形态,性能受限于外部总线的发展;在数据中心的部署下,会看到SAN或者NAS的存储形态,性能行为也受到Fabric的影响,如Ethernet、FC,InfiniBand和NVMe over fabric等;而在云环境下,特别是在混合云环境下,数据在公共云和专有云中之间自由流动,如何从用户的角度实现统一的数据视图以及统一的存储性能表现,是一个比较大的挑战。

我们看一下云环境下工作负载的部署策略。从传统的观点来说,云端提供计算和存储的弹性,适合动态或较难预测的工作负载,同时提供更好的运维管理能力;而私有的数据中心更多是IO或计算密集的场景,或者是对时延要求比较高的形态,这也是传统架构的特点。

而如今,公共云在快速的演进当中,整个公共云的存储生态也在不断的扩展,覆盖更丰富的业务负载。例如,性能上阿里云发布了百万IOPS和亚毫秒时延的ESSD;而存储形态上,提供OSS对象存储,容量型及性能型NAS,弹性的块存储服务等;而从上层的数据层面来看,提供缓存、消息队列,以及RDS,NoSQL等多样的数据服务。

但显而易见的是,未来很长时间都会是公共云、专有云共存的形态。所以,如何实现公共云和专有云之间数据的自由流动,如何做到业务无感知,用户不需要关注数据的位置,实现数据的融合和自由迁移非常重要。

理想状态下,公共云和专有云之间的连接应该是如图所示的状态,使得公共云的计算侧能访问线下的数据,线下计算能访问线上的存储,存储和存储之间能实现统一的管理,这是我们需要做到的。


这是当前最常见的线下存储和线上存储之间的互联状态。将传统的存储阵列进行扩展,提供了与云相集成的能力,从而充分利用云端存储在弹性和低成本,以及安全和高可靠性上的优势,使得存储阵列承载高性能场景之外更多的业务形态,这是非常直观的需求。


传统存储有分层和缓存的概念,以及容量层和性能层等这样的分层结构。很自然,我们可以把当前云端存储,例如阿里云OSS存储看作新的存储层次。通过引入云缓存、云分层、云备份等服务,可以按策略实现数据在本地的高性能存储以及云端的自由放置,从而实现存储在成本,安全和高可用上的优化,这是一个直接的云集成解决方案。


另外,我们经常会遇到的“Cloud Burst”问题,需要云上弹性的计算能力解决云下动态的数据处理需求。这时候线上的计算和线下的存储如何互联,如何保持像线下计算访问线下存储那样的一致的性能行为,是要解决的一个问题。


当前的一个解决方案是“Colocation”的部署方式。线下的IDC实现企业托管的高性能存储阵列和公共云高速连接PoP点的直接互联,从而保证云上计算服务对线下存储的低时延访问,使得计算能平滑迁移到云端。


当然,这种场景有一些限制,受限于公共云高速连接以及IDC机房的地域分布限制,同时也无法支持跨域访问。而且还需要了解用户的用户场景对SLA的要求,然后根据链路时延进行评估和可行性分析。


这是一个基于“Colocation“的典型的云分析业务场景。用户在边缘侧(Edge Storage)进行数据收集;边缘侧与Colocation服务下的高性能存储通过数据复制服务进行数据交互;而高性能存储和ECS计算实例之间,基于高速的数据访问,反复迭代计算生成训练模型,然后将模型同步到边缘侧,在边缘进行推断。

上面的云集成和“Colocation”两个方案解决了线上存储和线下存储以及线下存储和线上计算的集成,但是离我们理想情况还有一定的距离,也即如何把线上线下存储作为资源池做统一的管理,从而对计算来说,如何做到存储无差别,这也正是我们混合云需要解决的问题。


我们提出高性能的混合云存储网关的概念。

新兴技术成熟度曲线(编者注图)

Gartner在新兴技术成熟度曲线中认为云存储网关是一个淡化中的存储形态,这里其实是把存储网关单纯的当成传统的协议桥接。而我们将网关看作一个演进的存储形态:一方面,它会比其他存储更靠近计算侧,它会拥抱高性能存储介质带来的变化,比如SSD或者Persistent Memory,从而作为一个高性能Cache形态;

而另一个方面,云存储网关承载传统SDS(软件定义存储)的业务,作为存储虚拟化的一部分,帮助我们把线上线下的异构存储形态集成起来,让用户的存储成为一个整体。



我们实现了这样的云存储网关,它可以看做是云存储生态的一部分。对外的前端支持不同的存储协议,包括iSCSI,对象或者NAS,后端对接我们的传统数据中心和公共云。通过实现了一个虚拟化的存储层次,既可以对接线上的不同的存储生态,像我们的云端OSS和NAS,也可以对接线下的存储生态,最终形成统一的Storage Pool(存储池)的概念。我们也支持灵活的部署方式,既有Virtual Appliance(虚拟化设备),也有Bare metal(裸金属)的部署。

整体上它实现了一个全局的缓存服务,这种缓存服务与我们现有的分布式缓存在实现上有不一样的地方。举个例子,针对不同客户的场景我们会有不同的一致性实现,比如在多点协同的场景,很多只需要最终一致性的语义。所以云存储网关会考虑混合云场景下性能和一致性间的多种权衡和实现策略,以适应的不同业务需求。



所以,从宏观的角度看云存储网关的形态,它可以支持线上线下部署,靠近线上线下计算侧。用户看到的是Global Name Space(全局命名空间),它将线上线下存储结合起来形成统一的数据视图,从而接入传统的企业存储和线上的存储生态,形成完整的生命周期管理。并以此解决混合云场景下的各种问题,比如数据及应用的平滑迁移,基于策略的成本管理控制等。


最后,我们看一下整个阿里云混合云存储全景实现。

首先,我们支持云上云下快速的离线和在线的数据迁移。实际应用中,我们帮助115网盘完成百PB级的数据迁移;我们支持数据和应用在云上云下的备份和容灾,提供容灾一体机以及BaaS(Backup as a Service)和DRaaS(Disaster Recovery as a Service)服务;我们提供硬件和软件形态的云存储网关和云存储阵列,作为企业存储生态的一个重要组成部分;同时,我们和第三方的存储阵列厂商进行合作,提供灵活的集成策略,像SDK或VM,Container的等方式的集成,帮助传统厂商快速实现云集成能力。

以上是整个阿里云混合云存储的简单介绍。混合云存储生态以及云存储网关在不断演进当中,我们后续会继续关注如何针对现有的SSD和持久内存做进一步的优化,这是我演讲的主要内容,谢谢大家!

目录
相关文章
|
1月前
|
存储 城市大脑 运维
中国信通院&沙利文最新报告:阿里云混合云全面领先
中国信息通信研究院与国际权威分析机构沙利文(Frost & Sullivan)联合发布《2023 混合云价值影响力矩阵》,报告显示,阿里云是唯一一家全域领导者,在技术表现域、战略布局域以及市场表现域三个维度均排名领先于97%的企业。
|
1月前
|
存储 调度 块存储
阿里云连续两年斩获全球存储顶会FAST最佳论文
阿里云连续两年斩获全球存储顶会FAST最佳论文
321 0
|
1月前
|
存储 编解码 缓存
购买阿里云服务器如何选择实例?根据业务场景与细分场景选择实例规格
对于很多初次购买阿里云服务器的用户来说,面对众多可选择的云服务器实例规格,往往不知道如何选择,不同实例规格适用于不同的业务场景,本文为大家汇总了不同业务场景和细分场景下应该选择的主要实例规格,以及这些实例规格的主要性能和适用场景,如果你不知道如何选择阿里云服务器的实例规格,不妨根据自己的场景参考本文所推荐的主要实例规格来选择。
购买阿里云服务器如何选择实例?根据业务场景与细分场景选择实例规格
|
8天前
|
存储 机器学习/深度学习 网络协议
阿里云企业级ARM计算规格族特点、适用场景及收费标准与活动价格参考
阿里云企业级ARM计算规格族是阿里云继X86计算、异构计算、弹性裸金屈服务器、超级计算集群之后推出的全新架构云服务器,ARM计算规格族有通用型实例规格族g8y、计算型实例规格族c8y、通用型实例规格族g6r等。下面是阿里云企业级ARM计算规格族特点、适用场景及最新收费标准和活动价格参考。
阿里云企业级ARM计算规格族特点、适用场景及收费标准与活动价格参考
|
17天前
|
存储 人工智能 搜索推荐
阿里云佘俊泉:边缘云场景的探索与机遇
2024全球分布式云大会·北京站,阿里云演讲《创新涌现,边缘云场景的探索与机遇》
41 8
阿里云佘俊泉:边缘云场景的探索与机遇
|
1月前
|
存储 SQL 数据管理
阿里云数据库 SelectDB 内核 Apache Doris 如何基于自增列满足高效字典编码等典型场景需求|Deep Dive 系列
自增列的实现,使得 Apache Doris 可以在处理大规模时展示出更高的稳定性和可靠性。通过自增列,用户能够高效进行字典编码,显著提升了字符串精确去重以及查询的性能。使用自增列作为主键来存储明细数据,可以完美的解决明细数据更新的问题。同时,基于自增列,用户可以实现高效的分页机制,轻松应对深分页场景,有效过滤掉大量非必需数据,从而减轻数据库的负载压力,为用户带来了更加流畅和高效的数据处理体验。
|
1月前
|
边缘计算 专有云 虚拟化
阿里云神龙在智慧办公场景下的特点
阿里云神龙在智慧办公场景下的特点
|
1月前
|
存储 人工智能 安全
阿里云第八代云服务器实例通用型g8i实例性能和适用场景介绍
随着云计算技术的不断演进,阿里云作为国内领先的云服务提供商,持续推出创新的云服务器实例以满足不同用户的需求。近日,阿里云宣布其第八代云服务器ECS g8i实例已经完成全新升级。g8i实例采用CIPU+飞天技术架构,并搭载最新的Intel 第五代至强可扩展处理器(代号EMR),不仅性能得到大幅提升,同时还拥有AMX加持的AI能力增强,以及全球范围内率先支持的TDX机密虚拟机能力。这些特性使得g8i实例在AI增强和全面安全防护两大方面表现出色,尤其适用于在线音视频及AI相关应用。
阿里云第八代云服务器实例通用型g8i实例性能和适用场景介绍
|
1月前
|
存储 调度 块存储
十二年磨一剑:三代架构演进,打造高性能、低成本的块存储!
上周,全球计算机存储顶会USENIX FAST 2024 在美国加州圣克拉拉召开,继去年获得国内首个FAST最佳论文奖后,凭借在分布式块存储上的创新,阿里云新作再次斩获FAST大会最佳论文奖。这也是国内唯一一家连续两年获得FAST最佳论文奖的科技公司。
104618 104
|
1月前
|
存储 弹性计算 NoSQL
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
103 2

热门文章

最新文章