云计算渐行渐近 海量数据如何迁移到云里

简介: 本文讲的是云计算渐行渐近 海量数据如何迁移到云里,风险管理咨询公司Kroll的首席信息官Jeff Kubacki为其公司定下一个目标,即在未来三年内将存储成本降低25%.到目前为止,该公司的存储数据量达到13 PB(petabytes),Kubacki计划通过分级存储(tiered storage)、改变业务流程和采用包括云存储在内的新技术等多种手段相结合的方式来解决这个问题。

本文讲的是云计算渐行渐近 海量数据如何迁移到云里,【IT168 资讯】风险管理咨询公司Kroll的首席信息官Jeff Kubacki为其公司定下一个目标,即在未来三年内将存储成本降低25%.到目前为止,该公司的存储数据量达到13 PB(petabytes),Kubacki计划通过分级存储(tiered storage)、改变业务流程和采用包括云存储在内的新技术等多种手段相结合的方式来解决这个问题。
  虽然还只处于起步阶段,云存储凭借其弹性、清晰的收费、多个存储地点,以及直接从存储设备拖拽数据的能力,使之看上去颇具吸引力,但云如何通过以太网发送大量数据,仍是未知。
  “我们还在和供应商讨论:如果尝试云存储,可能会给我们带来什么?” Kubacki说,“我们仍然在研究它是否适合我们。”
  Kroll公司的IT架构师将调查通过互联网这个“管道”将该公司约25%的符合一定条件的数据迁移到云里去的方式。Kubacki解释说,之所以只迁移25%的数据,是因为该公司绝大多数的数据是法律文件,太敏感,因此不宜存储在云里。虽然云的存储容量在扩展,但受限于连接云的网络连接能力,因此企业与云之间数PB的数据的来回切换成了一个大的挑战。
  企业都会询问他们的管道是否大到足以将其存储的数据迁移到云,而答案通常是否定的。 “响应延迟是阻碍云存储被采用的一个主要因素,”Gartner的分析师Adam Couture说,“现在,我们发现企业对云的应用主要局限于归档、备份,也许还用于一些合作。”
  但是大多数云供应商声称有简单的解决方法——即初次全备份时将数据用物理迁移的方法迁移到数据中心。
  云托管公司The Planet达拉斯分部总经理Rob Walters表示,从日常的、用户级的角度来说,托管和传输大量数据是相对容易的,但是,如果要大块的迁移20TB到25TB的数据,仍然能“难倒”现有的系统。Walters说:“我们现在的网络并不好,它只是目前的一个薄弱点,现在大家正在研究解决它。”
  对企业而言, 初次全备份的数据可以通过一个WAN或LAN链接复制到云里去,Couture 警告说“初次全备份的时间取决于您的服务器上有多少数据,它可能会持续数周。”
  Nuvolus公司首席执行官Kevin Ellis介绍说,医生们的办公室用的是Arvada(科罗拉多州的 Nuvolus公司所提供的私人云存储服务)来保存敏感的医疗数据,因为这些数据不能被复制和物理带离他们的办公室。因此,该公司要求其医疗保健行业的客户有“合适的Internet连接”——通常得达到10Mbit/sec,以转移备份数据。
  “各医生办公室的情况不同,数据上载时间长短也不同,我们可以看到那种耗费很长上载时间的情况,”Ellis说,“你在晚上可尽管上传,我们努力确保我们不会影响到白天医生在办公室的工作。”
  有些云存储供应商还提供从企业到该供应商的某个存储节点的私人连接。根据Nirvanix公司(一家位于圣地亚哥的云存储供应商)介绍,这种方式非常适合那些首次全备份数据介于2TB和75TB之间,或少于750M文件,以及对数据传输时间敏感的公司。它还适合那种吞吐量高、但时延要求一般的一次性和持续的数据迁移。
  另一种最常用的办法是采用“人工网络(sneakernet)”,即将数据用磁盘、磁带或云存储供应商提供的设备从客户那里直接拷贝出来,然后带到数据中心进行初始备份。
  “我们有些客户已经卖掉了其存储阵列,”弗吉尼亚州私人云托管公司Carpathia Hosting 的首席技术官Jon Greaves 说道,“还有这种情况,客户在做完镜像后,直接从机器上卸除磁盘交给我们。”
  Nirvanix公司将配置了双千兆级以太网接口的存储服务器给其客户传输数据用,一旦数据被拷贝完,Nirvanix就会取回服务器,然后将数据迁移到云。
  亚马逊网络服务公司支持使用移动存储设备来将大量的数据从云里拷进拷出。该公司采用了高速的内部网络直接传输客户数据,从而绕过互联网。
  Greaves说大公司们在迁移数据时视情况而定,有时使用互联网,有时使用sneakernet方法。
  Carpathia用基于ParaScale公司的技术来为其企业客户建立私人云。“这取决于如何快速地看到他们所需要的数据和运行,并利用这些数据。如果客户是长期归档,通常采用逐步迁移数据的方法,”他解释说,“如果他们是直接需要使用的视频文件,这种通常是几百TB大小,那我们就要开始寻找替代方法。”
  在初始备份之后,网络带宽压力将得到缓解,因为以后只要做增量备份。
  Walters表示,对于云而言,并没有无限可扩展性或无限容量之说。规划容量、始终保证存储容量能满足用户所需是云存储供应商的责任。他说:“如果有人要上载十几TB的数据,你要事先就有准备,这是一个要精心策划的工作。”
  存储供应商使用复杂的方法进行容量规划。例如,Carpathia不断推动网络流量,将其从450Gbit/sec提升至500Gbit/sec,他还计划用来自电信业的算法来改变容量。
  “你有一条T1线路,你必须算出从这条T1线路可以挤出多少核心分钟(core minutes),这确实是一个超额配置(overprovisioning)问题,” Greaves解释道。
  电信公司使用一种被称为“erlang(厄朗:1厄朗为同一电路上每3600秒的呼叫数,或者是一个小时内保持此电路繁忙的流量负载)”的测量单位,以帮助确定电路负载情况。“我们在云上使用相同的方法,” Greaves说,“我们可以计算出我们在1.2左右,并预测出如果处于2将面临容量压力,因此,当我们临近1.2时,我们会定购更多的硬件。”
  Kroll公司决定要到2010年才使用云存储。 “我从来不喜欢充当风险性颇高的试验品,但是我不介意走在前沿”——Kubacki如此说道。
  不过他补充说,明年云存储将仍然是一个有吸引力的选择。“我认为迁移到云的好处之一是建立了一个完整的概念,即它更多地是一个支出交易而不是一个资本交易,”Kubacki 说,“现在我有一个大型的资本预算:我买的磁盘会一年年的贬值,因此,我很高兴看到通过将一些数据存储在云里使得公司的损益表更好看,因为我不是实际购买存储,我只是在租用。”

原文发布时间为:2009-08-03
本文作者:IT168.com
本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168。
原文标题:云计算渐行渐近 海量数据如何迁移到云里

目录
相关文章
|
调度 弹性计算 存储
拆解超算上云的障碍,阿里云用了这三招|E-HPC如何改变云超算?
2019年阿里云上海峰会,由阿里云资深技术专家何万青带来以“阿里云超算E-HPC平台”为题的演讲。本文内容包括了HPC概念及发展趋势,面向“大计算”设计的弹性基础设施,客户应用云上优化,着重介绍了E-HPC自动伸缩,闲时计算方案与混合云,数据全流程可视化以及HPC工作流与数据迁移等。
1784 0
|
3月前
|
存储 缓存 固态存储
云计算基础-存储虚拟化(深信服aSAN分布式存储)
每秒钟的IOPS数,该指标主要用于评价小块IO性能,体现存储系统的IO延时能力和并发能力。业界一般默认IOPS指的是4K块大小的IO性能,该值越大说明性能越好。
58 1
|
12月前
|
人工智能 运维 安全
带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程
带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程
151 0
|
存储 缓存 监控
性能基础之速读【性能之巅:洞悉系统、企业与云计算】
综合来讲,这是一本介绍方法论的书,作者通过概念、模型、观测、实验手段来进行问题的剖析。另外本书的涉及范围之广,从内存、CPU、文件系统、存储硬件、网络等各个方面。并且本书通常以一个实例入手,深入的介绍系统原理,特别是在一些重点细节上,往往有超出一般的认识和方法。
310 1
性能基础之速读【性能之巅:洞悉系统、企业与云计算】
|
安全 云计算
2021阿里云.计算峰会|想构筑更快,更稳,更安全的云上网络?你不可错过!
本次峰会,我们为大家带来了四大亮点: 首秀:阿里云计算产品家族首次整体亮相 大咖:云上企业先锋分享实战经验 全面:技术、工具、服务、方法论的全面解读 深入:聚焦4大行业,从技术深入到行业解决方案 阿里云联手诸多行业先锋,揭秘云上企业的关键能力,探寻高效,稳定,安全,规范地成为一个云上企业的高速路径
1375 0
2021阿里云.计算峰会|想构筑更快,更稳,更安全的云上网络?你不可错过!
|
存储 SQL 大数据
互联网广告行业逆势增长,数据湖解决方案成行业新解
阿里云面向金融行业,基于对象存储OSS构建了一个统一的数据湖。阿里云数据湖解决方案能够从各种数据源沉淀数据,将数据进行统一治理,并且可通过阿里云EMR集群,无缝对接各类计算引擎,展现数据最大化的价值。
3761 0
互联网广告行业逆势增长,数据湖解决方案成行业新解
|
数据库 运维 云计算
全面上云的拐点已至:在云上,创造更多可能!
“All in Cloud时代,互联网企业上云是大势所趋。阿里云数据库驱动虎扑创新闭环,将业务规模与IT运维能力解耦,驱动IT能力从运维向业务转变。阿里云数据库的弹性资源,助力虎扑业务高速发展,轻松应对赛事决战时刻。”
1445 0
|
Web App开发
一张图看懂互联网史上最大规模的公共云迁移案例
6月7日,阿里云与国内领先的云存储企业115科技在2018云栖大会·上海峰会上宣布,已将公司全部数据迁移至阿里云上,总量超过100PB。 至此,双方合力完成了互联网史上规模最大的公共云数据迁移,仅耗时45天,创造了百PB级数据公共云迁移的新纪录,而这都要依托于阿里云推出的全新离线数据迁移方案——闪电立方。
1791 0
|
存储 关系型数据库 分布式数据库
展望云计算新时代数据库计算力的进化
10月12日的云栖大会·阿里云自研数据库POLARDB专场,阿里云研究员余锋带来了《展望云计算新时代数据库计算力的进化》主题分享,探讨了阿里云数据库团队自研数据库POLARDB的设计理念,并一起展望了新一代云数据库的未来。
9664 0