HDFS 进化,Hadoop 即将拥抱对象存储?

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介:

Hortonworks在博客中提出了一个全新的Hadoop对象存储环境——Ozone,能将HDFS从文件系统扩展成更加复杂的企业级存储层。

Hadoop社区的一些成员今日提议为Hadoop增加一个新的对象存储环境,这样一来Hadoop就能以与亚马逊S3、微软Azure以及OpenStack Swift等云存储服务一样的方式去存储数据。

Hadoop发行商Hortonworks本周二在官网发博文指 出,随着越来越多的企业采用Apache Hadoop,Hadoop已经成了各种企业数据的“数据湖”(Data Lake),其中很多适合大数据分析应用的数据类型非常适合采用HDFS,但是在某些行业应用案例中HDFS又难以胜任,这就需要扩展Hadoop的存储 维度。例如,对象存储或Key-Value存储具备Hadoop HDFS的可靠性、一致性和可用性,但对语法、API和可扩展性的要求不同,Hadoop的存储系统需要向多面手进化,以适应新的存储应用需求。
screenshot

Hortonworks在博客中提出了一个全新的Hadoop对象存储环境——Ozone,能将HDFS从文件系统扩展成更加复杂的企业级存储层。 (编者按:虽然Hadoop已经支持第三方对象数据存储,例如亚马逊S3云和数据中心里的OpenStack Swift,但是Hadoop原生的对象存储功能对于希望将Hadoop作为未来应用存储层的开发者来说依然非常有价值。)

过去,HDFS架构将元数据管理与数据存储层分离成两个相互独立的层。文件数据存储在包含有上千个存储服务器(节点)的存储层,而元数据存储在文件 元数据层——一个数量相对少些的服务器群(名称节点)。HDFS这种分离方式使得应用直接从存储磁盘读写数据时能够获得很高的吞吐量扩展空间。
screenshot

Ozone使得HDFS块存储层能够进一步支持非文件性质的系统数据,而HDFS的文件块架构也将能够支持存储键值和对象。与HDFS的名称空间元 数据类似,Ozone的元数据系统也基于块存储层,但是Ozone的元数据将被动态分配,支持大量的bucket space。(上图)

Hortonworks认为HDFS将自然进化成一个完整的企业大数据存储系统,而Ozone也将以Apache项目(HDFS-7240)的方式开源。

Hortonworks给Ozone规划了以下几个目标:

  • 可扩展支持数以万亿的数据对象。
  • 广泛支持各种对象大小,从几KB到几十兆。
  • 保证不低于HDFS的可靠性、一致性和可用性。
  • 基于HDFS的数据块层。
  • 提供基于REST的API来访问和操作数据。
  • 为获取更高的可用性,能支持数据中心间的数据复制。

文章转载自 开源中国社区 [http://www.oschina.net]

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
4月前
|
存储 分布式计算 Hadoop
Hadoop系列HDFS详解
Hadoop系列HDFS详解
40 0
|
11天前
|
分布式计算 Hadoop 测试技术
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
【4月更文挑战第5天】Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
38 8
|
11天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
39 9
|
12天前
|
分布式计算 Hadoop Shell
Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第4天】Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
26 5
|
15天前
|
存储 分布式计算 Hadoop
【Hadoop】HDFS 读写流程
【4月更文挑战第9天】【Hadoop】HDFS 读写流程
|
3月前
|
存储 分布式计算 Hadoop
Hadoop的Secondary NameNode在HDFS中的作用是什么?
Hadoop的Secondary NameNode在HDFS中的作用是什么?
38 0
|
4月前
|
存储 分布式计算 资源调度
[hadoop3.x]HDFS中的内存存储支持(七)概述
[hadoop3.x]HDFS中的内存存储支持(七)概述
51 0
|
4月前
|
SQL 分布式计算 Hadoop
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅
|
4月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
263 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据成长之路-- hadoop集群的部署(3)HDFS新增节点
大数据成长之路-- hadoop集群的部署(3)HDFS新增节点
68 0

热门文章

最新文章