你想知道的关于Hadoop数据资源池的一切

简介:

随着Hadoop数据资源池的概念进入主流IT,越来越多的企业开始试水Hadoop。但很多只是将一部分数据池化,还没有开发出成熟的Hadoop环境。

数据资源池使用基于开源Hadoop框架和商业硬件,以池化资源的形式处理、存储和管理大数据,尤其是支持分析应用。支持者认为数据池架构提供了一个更便宜的替代传统数据仓库的选项,能够处理结构化、半结构化以及非结构化数据。不过,数据资源池的概念还相对较新,带来利益的同时也隐藏着陷阱。关注BI和大数据的咨询公司Eckerson 集团首席咨询师Wayne Eckerson表示:“在过去七年里,Hadoop取得了长足的进步,但它仍有很长的路要求。”

你想知道的关于Hadoop数据资源池的一切

在接受TechTarget采访时,Eckerson讲述了他个人对于数据资源池的理解,以及可能影响该进程的阻力。对于公司是否适合采用Hadoop资源池的问题,他也给出了建议。

TechTarget:从您接触到的公司来看,Hadoop资源池到底有多流行?

Wayne Eckerson:很 多公司已经或打算使用Hadoop.只有当你把所有数据都放入Hadoop集群的时候,数据资源池才是真实的。公司当然对它有兴趣,尤其是目前还没有数据 仓库的公司,它们会选择从Hadoop开始,而不是关系型数据库,当然前提是它们有掌握Hadoop的人才。不过我认为,供应商推Hadoop的力度大于 用户对Hadoop的需求。泡沫的成分还是有的。

TechTarget:公司为什么要考虑数据池,数据池能够给公司带来的最大好处是什么?

Eckerson:理论上这种方法大有裨益。你把数据放入资源池,不需要再移动它。你需要做的只是把数据提取到支持业务的正确的处理系统中。数据资源池的好处是你把数据存储在 数据产生的地方,然后把处理流程加在数据上,这样能够让公司更少地移动数据。但是问题是,在过去二十年里,我们积累了如何从数据中提取答案的经验,但这些 经验并不完全适用于数据资源池。公司要重新确认流程,保证能得到正确答案。不过因为成本低,所以人们还是很愿意去尝试它。

企业在部署Hadoop时,对数据资源池的概念是否会有误解?

Eckerson:对 于任何新技术,人们都不免会希望它能“包治百病”。但事实并非如此,Hadoop需要专业的技术人才,而且有很多功能还不成熟,比如安全、管理、容灾和恢 复、交互查询等。现在,这些功能正逐渐被添加到Hadoop平台上,它现在正在向企业级方向发展。不过它仍然没有传统数据仓库环境那么成熟。你不能只给人 们一个生数据的入口,就期望他们能完成任何事。你需要构建不同的数据视图,不同的结构,不同部门的人员看到不同的数据。这和数据仓库的道理是一样的,只是 用到的技术不同。我认为最大的误解是认为Hadoop是适用于业务用户的环境,其实不是,Hadoop还是需要掌握固定技能的专家的。

数据资源池适用于所有企业吗,还是只适用于部分企业?

Eckerson:任何公司,只要有时间和资源,都可以尝试数据资源池。公司要以开放的心态迎接新技术,需要花费时间进行试验,了解数据资源池能够给自己带来什么。早期的Hadoop使用者已经在大范围部署Hadoop了。但也有公司忙于应对已有的数据仓库,无暇考虑Hadoop。这是企业文化的问题,有些对新技术比较积极,有些则不然。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。


本文作者:佚名

来源:51CTO

相关文章
|
4天前
|
分布式计算 资源调度 Hadoop
Hadoop节点资源扩展环境部署
【4月更文挑战第16天】扩展Hadoop集群涉及多个步骤:准备新节点,配置静态IP,安装并配置Hadoop,将新节点添加到集群,验证测试,及优化调整。确保符合硬件需求,更新集群节点列表,执行`hdfs dfsadmin -refreshNodes`命令,检查新节点状态,并依据测试结果优化性能。注意不同环境可能需要调整具体步骤,建议参照官方文档并在测试环境中预演。
15 4
|
4天前
|
存储 分布式计算 固态存储
Hadoop节点资源扩展硬件选择
【4月更文挑战第16天】在扩展Hadoop节点资源时,重点是选择合适的硬件。推荐使用x86架构的机架式服务器,配备多核高主频处理器以提升计算能力,确保至少16GB内存以支持高效数据处理。选择高容量、高速度的SAS或SSD硬盘,并利用RAID技术增强数据冗余和容错。网络方面,需要千兆以太网或更快的连接以保证数据传输。同时,要考虑成本、功耗和维护,确保硬件与Hadoop版本兼容,并在选购前进行充分测试。
18 3
|
3月前
|
存储 分布式计算 Hadoop
Hadoop:驭服数据洪流的利器
在当今信息大爆炸的时代,海量数据成为企业决策的重要依据。本文将介绍大规模数据处理框架Hadoop的概念与实践,探讨其在解决大数据应用中的重要性和优势。从分布式计算、高可靠性、扩展性等方面深入剖析Hadoop的工作原理,并结合实例说明如何利用Hadoop来处理海量数据,为读者提供了解和运用Hadoop的基础知识。
|
5月前
|
存储 分布式计算 Hadoop
Hadoop怎么处理数据
Hadoop怎么处理数据
101 0
|
3月前
|
分布式计算 关系型数据库 Hadoop
使用Sqoop将数据从Hadoop导出到关系型数据库
使用Sqoop将数据从Hadoop导出到关系型数据库
|
8月前
|
数据采集 分布式计算 搜索推荐
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
|
4月前
|
存储 Linux
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
110 1
|
4月前
|
分布式计算 Hadoop 大数据
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
54 0
|
4月前
|
消息中间件 关系型数据库 MySQL
Hadoop学习笔记(HDP)-Part.03 资源规划
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
78 0
|
8月前
|
数据采集 缓存 分布式计算
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)

相关实验场景

更多