网格成就Web 2.0存储时代的路易XIV?

本文涉及的产品
简介:
Web 2.0存储和XIV
经济危机来袭,生活还要继续。当然,简单地套用时下流行的观点“按照历史规律,经济越萧条,电影业反而越繁盛……”,就推导出失业的人们“宅”在家里,成天泡“非死不可”等SNS网站和朋友交流,从而预言后者将迎来巨大商机,多少有些“没心没肺”的感觉。不过,即便经济危机是会带来一些不利影响,也已无法改变包括SNS在内的Web 2.0应用浪潮席卷全球的大势,Web 2.0存储更是业界近一段时间关注的热点。
对于Web 2.0存储的定义,本站早些时候的 《解析Web 2.0存储》 一文有较为详细的解释。不同于传统的交易型数据,Web 2.0数据通常来自较大型的文件,而且很可能被多个用户远程共享。除了我们熟悉的图像、音/视频、电子邮件归档之外,视频监控录像、卫星探测采矿数据、基因序列和金融分析统计数据等也被划入Web 2.0数据的范畴。
一般来说,有三种用户需要大量处理Web 2.0数据:第一种是纯粹以Web 2.0作为业务模式的企业,他们通过Web提供服务或者信息内容;第二种是那些需要解决自己内部数据信息爆炸的传统企业,如那些从事生命科学研究的机构每周基因排序所产生的数据就可以达到数百TB;第三种是那些想要从事SaaS业务的传统企业,如惠普的Snapfish(中文名“喀嚓鱼”)在线图像存储服务。
Web 2.0数据与企业交易数据一样重要,它同样也需要具备可用性、安全性并防止数据丢失。作为大家熟知的Web 2.0网站,Facebook和MySpace的用户数早已过亿,同时在线几百万人是很正常的事,如果没有高性能的存储系统支撑,可用性和基本的用户体验将无法保证。传统的高端存储系统性能或许够用,但对于Web 2.0应用而言,每GB的存储成本实在太高——成本是Web 2.0网站必须优先考虑的问题,要知道MySpace就是自动精简配置(thin provisioning)的早期用户之一。
不错,EMC的Symmetrix DMX-4是支持相对廉价的SATA硬盘驱动器,可是,如此高端的存储系统,单是每个驱动器槽位的成本就足以令人望而却步,大容量而廉价的SATA驱动器只能部分拉低成本,无法从根本上解决问题。
与交易型数据相同的是,Web 2.0数据是不断扩展的,数据量增长速度不断加快。传统的中高端存储系统,无论是较早的单体式(Monolithic)还是现在的模块化(Modular)架构,都基于向上扩展(Scale-up)的设计,性能难以与容量同步增长。比较理想的模式是向外扩展(Scale-out),即可以使性能随着容量的扩充而同步提高。
为了满足Web 2.0数据增长的需求,Google和雅虎等Web巨头借鉴高性能网格计算的优点开发了具有针对性的存储技术。通常,这种存储策略采用了大型机架式计算集群和由低端工业标准服务器与SATA硬盘驱动器组成的存储节点。数据在多节点之间分布和复制,并且通常是在地理位置上彼此独立的。冗余性是在节点层级的,集群软件可以处理节点故障,提供弹性和灵活性。这些集群大多具备自主管理和快速扩展的特点。
Google可以直接从英特尔公司大量订购定制的主板,以满足低成本和低能耗的需求。但并不是每个用户都有能力和意愿自己定制Web 2.0存储架构,这也给主流存储厂商留下了“收复失地”的机会。
将英特尔(Intel)处理器和SATA硬盘驱动器等标准设备,通过标准以太网交换机整合到一起构成集群阵列系统,XIV基于块的Nextra解决方案与Google的做法大有异曲同工之妙。XIV首席执行官Ofir Zohar和其他四位创建者都曾是以色列军队精英Talpiot技术项目的第14届毕业生,XIV(罗马数字14)这个名字也是由此而来。不过,如果有人说XIV意味着该公司可以在Web 2.0存储市场取得堪比“太阳王”路易十四的统治地位,想来他们也是会欣然认同的。
IBM存储在华开辟企业信息架构新时代
EMC前CTO、Symmetrix之父、XIV创始人、现IBM院士Moshe Yanai介绍XIV存储系统的Nextra架构先进性
今年1月初,IBM宣布收购了这家位于以色列特拉维夫的私人控股存储技术公司,获得了XIV所有的客户,并将XIV的技术和人员纳入IBM系统与科技事业部的系统存储业务部门。XIV管理团队中名气最大的要数执行主席Moshe Yanai,曾任EMC公司首席技术官的他被业内公认为Symmetrix存储系统之父。在IBM于10月中旬召开的企业信息架构(IBM Information Infrastructure,简称III)高峰论坛暨新品发布会上,笔者见到了已是IBM院士的Moshe Yanai,但他不接受记者采访,故而无缘向他求证是否因看到了Symmetrix为代表的传统存储系统存在的局限才在2002年离开EMC创立XIV,推出基于网格的Nextra架构。
XIV架构详解及主要功能
在完成收购8个月之后,IBM打着“Storage Reinvented(再造存储)”的口号正式推出了XIV存储系统。据IBM系统与科技事业部中国区XIV技术专家王晓冬介绍,其与传统存储系统最大的区别是采用了粒度非常细的网格结构和大规模并行的概念。XIV存储系统中没有任何集中的模块,而是由一个个被称为数据模块的网格单元组成,通过高速的交换方式互联在一起,底层则是粒度很细的数据分布。前端应用服务器的数据进来后,通过大规模并行的方式,把所有的数据均衡的分散到后端所有的网格结构上,最终(以1MB为单位)分散到所有的物理驱动器上。也就是说,通过粒度很细的数据分布和大规模并行,让后端所有的网格单元和磁盘驱动器并发响应前端应用的需求,实现性能和可靠性的改进。
XIV存储系统的卷分布过程示意,进入的数据以1MB的粒度平均分布在所有的磁盘驱动器上
与大家熟悉的传统架构相比,这个系统结构中没有集中化的内存或大型控制器,而是由一个个紧耦合了CPU处理能力、缓存能力及磁盘存储能力的小的网格单元组成。传统的中端存储架构,通常配置好双控制器之后,处理性能就已经固定下来了,以后只是简单地增加磁盘、扩充容量,性能达到一定水平后很难再有增长。XIV系统中则没有任何主控制器的概念,全部是处理能力和存储能力紧耦合的网格单元,不可能只给用户扩展容量(如增加10TB),而是必须按照网格单元的方式扩展,也即在加入磁盘的同时,增加了CPU和内存,所以整个系统的扩展是性能和容量同步线性增长,在增加容量的同时,势必会提高处理能力和性能,增加缓存的能力,而在增加到一定程度以后,再使用第二个机架,乃至第三、第四个……理论上是可以继续线性扩展下去的。
XIV存储系统容量扩展示意,新的数据模块(网格单元)加入后,所有的数据都会重新分布
王晓冬强调,XIV的任何一个网格单元都基于业界标准的组件,实际上就是“Intel + Linux”,任何新出来的CPU技术、磁盘技术或内存技术都很容易通过网格单元的方式,增加到系统架构中,将来整个系统更新换代或扩展升级,可以把业界最新的技术迅速地应用到这个环境里。因为之间的互联包括网格单元用的全部是目前业界的标准技术,并且基于网格的架构,从而给整个系统未来的扩展带来了非常大的灵活性。相比之下,传统存储需要设计新的控制器、新的内部背板,往往由于复杂性导致产品周期长达24个月以上。
从用户的角度来说,他们并不关心数据存储在哪里,只希望需要访问的时候能够找到并使用即可。虽然XIV底层采用了粒度很细的网格的结构,但在上层通过全面的虚拟化屏蔽了复杂性,用户所有的数据都通过XIV智能的算法,自动地均衡到后端所有的磁盘上。系统在整个信息周期里的任何时刻,磁盘后端包括网格单元的利用率是百分之百——不是负载达到百分之百,而是任何一个单元并不比另外一个单元更忙。也就是说,后端所有的计算单元、磁盘单元,繁忙程度是完全一样的,从而消除了所谓的热点,体现出恒定均衡的核心的设计理念。任何一个前端并发的I/O过来,会同时分布到后端所有的网格单元中,利用后端所有的磁盘并发地存储。后端这种平衡的状态即使在系统发生变更的时候仍然可以得到保持,譬如增加新的网格单元,或者把一些旧的网格单元从环境中移除,总之任何系统变更发生的时候,后端所有的网格单元和磁盘单元都会参与数据的重建。最终理念是通过很多小的模块并发运作的方式实现整个系统的可靠性和稳定性。
XIV存储系统的自动负载均衡功能可以避免热点的产生
整个系统还可以通过后端的恒定均衡实现自恢复和自优化。最典型是由于后端大规模并发,系统中1TB的SATA磁盘驱动器出现故障时,只需要约30分钟就可以把上面的1TB数据重新分布到系统内剩余的磁盘驱动器。王晓冬表示,这30分钟的时间是指整个数据系统完全充满的情况下,如果用户数据没有充满,整个1TB单盘驱动器出现故障的恢复时间只需要15分钟甚至更短。即使与今天高端的FC存储系统相比,整体的恢复时间只大概相当于目前主流FC驱动器的十分之一以内,表明大规模并发的架构为整个系统的可靠性提供了全新的概念。
自动性能优化则是指,XIV系统既不需要用户购买任何“所谓的存储优化软件”,也不需要任何的后端磁盘均衡软件,系统已经自动通过算法的方式帮助用户实现了。XIV整体的硬件结构并没有什么特殊的地方,无非是采用了很小的粒度很细的网格单元,它真正核心之处在于所有软件的部分,怎样通过算法的方式,能够把大规模网格的力量利用起来,所以恒定均衡概念是XIV最主要的特点。王晓冬补充说,目前的XIV系统没有QoS的概念,而是通过后端大规模并发的设计满足前端所有I/O的存储能力,在这种特殊的架构中不需要有QoS。
XIV系统配置及近期规划
目前的XIV存储系统是IBM发布的第一代产品,但在技术上已经是第二代。内部采用180个1TB SATA硬盘驱动器,采用镜像的方式保护数据,可用容量80TB,内存容量则高达120GB。支持前端通过FC或者iSCSI连接存储系统,属于基于SAN的技术,而不是NAS的概念。服务和支持通过IBM全球的服务系统提供。
虽然SATA硬盘驱动器以廉价著称,但配置的起点就是180TB,也难怪XIV系统被定位在高端。可用容量不到物理容量的一半(80TB : 180TB < 50%)是竞争对手攻击XIV的另一个把柄,对此王晓冬解释说,高端存储系统虽然都支持RAID 5,可是在实际使用中,综合性能与安全性的考虑,往往更倾向于配置为RAID 1,所以XIV干脆一步到位(注:个人认为,也可以简化设计)。
SATA磁盘的好处可不仅仅是廉价,节能更是其一大卖点。SATA硬盘驱动器的容量本来就比FC硬盘驱动器大至少一倍,能耗又明显低于后者,所以单位容量的能耗只有几分之一。虽然XIV单磁盘驱动器的性能不及FC硬盘驱动器,但通过大规模并发的方式,系统整体性能与基于FC驱动器的传统高端(一级)存储相比不落下风,同时在能耗和占地面积占有较大优势。所以,IBM一再强调,通过网格的力量,XIV的架构能够利用二级的存储组件(SATA驱动器)实现一级存储的整体性能、可靠性和安全性,大幅度节约客户整体信息架构的开销,这也是它基本的思路和理念。
网格成就Web
可以看到,XIV存储系统的每个数据模块有12个磁盘驱动器,也就是说总共有15个网格单元
XIV提供了业界主流的所有的企业级存储系统典型的软件功能,包括用户在生产环境之下可能会用到的软件复制的功能(如快照)。XIV支持快照的数量相当大,而且是高性能的快照,工作时对在线生产系统的性能影响很小。此外还有自动精简配置(thin provisioning),和支持远程同步的数据复制,包括卷到卷的数据复制,iSCSI和FC均可作为通讯的链路。
XIV的管理也很简单,据称大约两个小时即可将系统安装完毕,用户看到的就是80TB的存储池。用户使用半个小时分配卷,下午便可以投入生产。“用户不需要像传统存储一样,考虑做RAID5还是RAID1,以及相应的一系列设置,整个的安装、调整过程都需要上周乃至更长的时间……”
不过,无论如何,80TB的可用容量确实是过高了。据王晓冬透露,XIV近期将推出一个低配版本,通过减少数据模块的数量,从而将可用容量的门槛降低至27TB(物理容量60TB?)……




本文转自 Gelada 51CTO博客,原文链接:http://blog.51cto.com/gelada/155360,如需转载请自行联系原作者
相关实践学习
基于函数计算一键部署掌上游戏机
本场景介绍如何使用阿里云计算服务命令快速搭建一个掌上游戏机。
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
3月前
|
存储 移动开发 JSON
H5学习之路之Web存储解决方案
H5学习之路之Web存储解决方案
18 0
|
4月前
|
存储 安全
Web存储—localStorage存储
Web存储—localStorage存储
|
4月前
|
存储
Web存储—获取Cookie
Web存储—获取Cookie
|
4月前
|
存储 编解码 缓存
Web存储—本地存储Cookie
Web存储—本地存储Cookie
|
存储 负载均衡 应用服务中间件
【web项目】keepalived高可用+LVS负载均衡+nginx动静分离+nfs共享存储
【web项目】keepalived高可用+LVS负载均衡+nginx动静分离+nfs共享存储
222 0
【web项目】keepalived高可用+LVS负载均衡+nginx动静分离+nfs共享存储
|
10月前
|
存储 Web App开发 JavaScript
web存储(Storage)
web存储(Storage)
|
10月前
|
存储 移动开发 前端开发
web前端面试高频考点——JavaScript-Web-API 篇(二)AJAX、存储
web前端面试高频考点——JavaScript-Web-API 篇(二)AJAX、存储
107 0
|
11月前
|
存储 安全 测试技术
|
11月前
|
存储 网络安全 Apache
基于NFS存储建立WEB群(PCS工具)
基于NFS存储建立WEB群(PCS工具)
61 0
|
11月前
|
存储 移动开发 前端开发
前端祖传三件套HTML的HTML5之Web存储 localStorage/sessionStorage
HTML5 是 Web 技术的重要更新,其中包括一些新特性。其中之一就是 Web 存储。Web 存储允许我们在客户端(浏览器)中存储数据,而不必依赖服务器。本文介绍两种常见的 Web 存储:localStorage 和 sessionStorage。
171 0