海量冷数据存储关键技术

简介:

近年来,移动互联网、物联网、云计算的快速发展催生并积累了大量的用户、业务数据。据市场调研机构IDC预计,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB。据统计,这些海量数据中只有10%~15%的数据是被经常访问的,而绝大部分都会在产生之后逐渐变冷。这些“冷数据”的访问率虽然很低,但用户还是希望保留这些数据,对于企业而言,还有很多数据需要进行备份和存档。

且不管数据的冷热及其冗余备份,如果将这40ZB的数据都使用目前已量产的最大容量蓝光盘来存储,按照单盘容量300GB计算,则需要1300多亿张盘;如果使用10TB的机械硬盘来存储,需要40亿个硬盘;如果采用磁带库来存储,目前也有量产的10TB磁带,按照这个存储能力计算,也需要40亿个磁带。这不仅为数据存储行业带来了巨大的市场空间,同时也对海量数据的存储、处理和管理能力提出了前所未有的挑战。

海量冷数据存储面临诸多挑战

首先,面对快速增长的数据存储需求,成本是需研究的首要问题。如果只从物理上增加存储容量,则必然导致存储数据的成本持续、快速增加,且将受制于机房空间、供电能力等其他因素而难以为继。

其次,是冷热数据的分级。业界根据数据的访问频次将数据分为热数据、温数据和冷数据,但具体到海量的数据,哪些属于冷数据,应该相应采用什么存储策略、存储方式,则是一个需要长期研究探索、实践积累的问题。

再者,海量的已存数据的维护也成为新的挑战。一方面需要定期检测存储介质的健康情况及数据的完整性,在发现坏盘的情况下及时进行更换;另一方面是数据的搬迁,存储介质大都有相对固定的使用寿命,在设备生命周期结束之后,需要将数据迁移到新的存储介质上。

海量数据的价值体现是又一挑战。海量数据的存储必然占用一定的成本,而数据的存储价值并非只是为了保存,而是在需要的时候能够被尽可能快地找到。为用户提供尽可能好的访问体验,这就要求海量数据存储具备可快速查询的能力。

最后,数据的安全也是海量冷数据存储的一大挑战。一方面是数据的可靠性,即数据的冗余备份。数据的存储最基本的要求就是数据不丢失,目前最常用的办法就是对数据进行多副本的冗余保存,或者采用可恢复数据的校验方法。这种冗余存储在本来就海量的基础上又增加了一定比例的数据量,而海量数据的存储通常需要大量的存储设备和其他配套设备,在相同的故障概率下,可能发生故障的设备也就相应较多,因此这些设备的定期巡检、故障定位和维修更换,都因“海量”而极具挑战。另一方面是数据的隐私保护,即数据的访问权限控制。由于大量的数据被聚集在一起,当发生数据泄露时,泄露的数据将会更多,甚至可能包括比攻击目标更加重要的数据。此外,海量的数据也增加了数据被篡改的风险,影响数据的实际价值。

为了实现用尽可能低的成本获得尽可能持久、敏捷、可靠、安全的数据存储,海量冷数据的存储面临着诸多挑战,同时也给产业链上下游企业带来了更多的发展机遇,从存储介质、控制器、数据中心等硬件技术,到数据分级、数据压缩、冗余备份等软件技术,相关企业都在进行相应的技术攻关,也取得了很多突破性的发展。

海量冷数据存储的关键技术

一是数据的分级,主要是指从海量的数据中根据文件的访问频率、价值等因素,进行冷热数据的分类,甚至分出更细的数据类型,如“温数据”、“冰数据”等。目前常见的数据分级方法主要有两类,一类是业务数据的分类,即基于具体的业务类型,结合长期以来的运营经验,进行运营级的数据分类。另一类是基于数据存取特性的分类,即借助存储软件系统自动进行数据的冷热分级。通过存储软件系统对数据进行冷热监控,统计分析一个时间周期内的IO冷热程度,并按照设定的分类策略自动进行数据的分类,并将冷数据从前端业务存储系统迁移到冷数据存储系统。

二是存储密度的提升,几乎所有的存储部件厂商都在努力通过提升单盘的存储容量来应对数据的快速增长。在磁、光存储密度快速提升的同时,电存储也表现出色,32TB的SSD盘已经问世,且预计未来还有更大的增长空间。

三是数据的压缩去重,提高有效数据的存储比例。为了提升数据存储的可靠性,通常会对数据进行多副本存储,但多副本的方式会带来存储数据量的倍增。为了进一步提升存储效率,在一些读写性能要求较低的场景下,可以选择只保存校验数据。

四是运营能力的提升,海量数据的存储需要更智能化的运维系统,包括对数据的定期巡检、数据的精细化分类、自动化的数据迁移、故障预测及定位、设备的休眠等机房节能措施。此外,存储的架构设计也是当前的研究热点,包括设备的分级、存储介质的选型、数据存储格式、数据检索、对外服务接口等。

此外,数据访问延迟、整体读取速率以及数据持久性等,也是海量冷数据存储的关键技术。这些关键技术相互制约影响,尤其是在运营能力提升方面,涉及的因素众多,对冷数据存储的选型提出了新的挑战。

海量冷数据存储选型策略

国内外大型互联网企业已根据自身的业务特点,结合多年的运营经验和业务预测,进行存储架构的整体设计,并基于其在冷存储方面的经验和技术积累,对外提供了相关的冷数据存储服务。以亚马逊网络服务推出的“AWS冰川”数据存储服务为例,用户可以采用它来存储无限量的数据,并建立存储库列表进行管理,包括各种档案的生命周期管理和访问策略。此外,还有谷歌公司提供的“近线云存储”服务,以及微软公司提供的“CoolBlob”存储产品,都是具有一定代表性的海量冷数据存储服务,而它们都有一个共同的特点就是“无限量”。

对于数据量较小且在快速增长的企业而言,可以选择使用一部分的云存储服务,同时也逐步探索建设自己的数据存储中心。

海量冷数据存储的关键还在于运营,在于存储策略和业务需求的匹配程度,因此,还需积极参与各种社区、联盟组织活动,借助产业发展的力量,更多地借鉴先行者的经验,了解行业的技术发展情况,及时更新制定适合自身需求的存储架构和技术路线。

本文转自d1net(转载)

目录
相关文章
|
7月前
|
存储 数据可视化 数据挖掘
AtomData结合阿里云分布式存储实现海量数据分析(一)
AtomData结合阿里云分布式存储实现海量数据分析(一)
140 0
|
7月前
|
存储 缓存 数据挖掘
AtomData结合阿里云分布式存储实现海量数据分析(三)
AtomData结合阿里云分布式存储实现海量数据分析(三)
74 0
|
7月前
|
存储 数据挖掘 大数据
AtomData结合阿里云分布式存储实现海量数据分析(二)
AtomData结合阿里云分布式存储实现海量数据分析(二)
81 0
|
6月前
|
存储
云端数据存储
云端数据存储
|
存储 分布式计算 NoSQL
剖析大数据平台的数据存储
剖析大数据平台的数据存储
剖析大数据平台的数据存储
|
存储 SQL 传感器
基于 Tablestore 时序存储的物联网数据存储方案
背景物联网时序场景是目前最火热的方向之一。海量的时序数据如汽车轨迹数据、汽车状态监控数据、传感器实时监控数据需要存放进入数据库。一般这类场景下存在如下需求数据高写入,低读取需要对写入数据进行基础的图表展示对写入数据进行聚合分析传统的关系型数据库并不适合此类场景,时序数据库脱颖而出。表格存储时序实例支持时序数据的存储,其具有如下特点:Serverless,分布式,低成本高写入支持优秀的索引能力对数据
1430 0
基于 Tablestore 时序存储的物联网数据存储方案
|
存储 SQL 弹性计算
深度|物联网海量时序数据存储有哪些挑战?
随着 IoT 技术的快速发展,物联网设备产生的数据呈爆炸式增长,数据的总量(Volume)、数据类型越来越多(Variety)、访问速度要求越来越快(Velocity)、对数据价值(Value)的挖掘越来越重视。
558 0
深度|物联网海量时序数据存储有哪些挑战?
|
存储 SQL 弹性计算
物联网海量时序数据存储有哪些挑战?
随着 IoT 技术的快速发展,物联网设备产生的数据呈爆炸式增长,数据的总量(Volume)、数据类型越来越多(Variety)、访问速度要求越来越快(Velocity)、对数据价值(Value)的挖掘越来越重视。物联网产生的数据通常都具备时间序列特征,时序数据库是当前针对物联网 IoT、工业互联网 IIoT、应用性能监控 APM 场景等垂直领域定制的数据库解决方案,本文主要分析物联网场景海量时序数据存储与处理的关键技术挑战及解决方案。
物联网海量时序数据存储有哪些挑战?
|
存储 机器学习/深度学习 运维
数据湖,已成为海量数据存储与分析的重要承载方式(附白皮书下载)
在云计算和大数据时代,基于数据开展生产、运营、决策成为常态,根据Gartner报道,2019年数据基建方面的采购费用飙升到660亿美元,占据基础架构类软件费用的24%。数据的存储及应用体系是企业生态运转的中枢神经,数据湖已经成为海量数据存储与分析的重要承载方式。
3838 0
数据湖,已成为海量数据存储与分析的重要承载方式(附白皮书下载)
|
存储 Cloud Native 多模数据库
基于Lindorm的车联网数据存储处理方案
本文从车联网的定义出发,结合行业趋势和国家规范,给出车联网通常需要采集的数据以及可以提供的服务。根据对车联网的业务特征的分析给出了为什么Lindorm作为一个数据存储为什么是车联网业务的合适选择。
2366 0
基于Lindorm的车联网数据存储处理方案