大数据应用还处于早期——专访Hadoop之父Doug Cutting

简介: 至顶网软件频道消息: 谈到大数据,对技术有点了解的人很容易想到Hadoop。的确,尽管Hadoop只是一个对数据进行存储和分析处理的平台,但仍有不少人把Hadoop和大数据对等起来。实际上,Hadoop的确在很大程度上扮演着大数据代言人的角色,它应用的广度和深度也基本反映了大数据市场的繁荣程度。

至顶网软件频道消息: 谈到大数据,对技术有点了解的人很容易想到Hadoop。的确,尽管Hadoop只是一个对数据进行存储和分析处理的平台,但仍有不少人把Hadoop和大数据对等起来。实际上,Hadoop的确在很大程度上扮演着大数据代言人的角色,它应用的广度和深度也基本反映了大数据市场的繁荣程度。

从有Hadoop之父之称的Doug Cutting推出Hadoop算起,这个分布式大规模数据处理平台面市已经超过10年历史。这些年来,Hadoop自身在不断进步,市场上也诞生了一批像Cloudera、MapR、Hortonworks这样专门提供Hadoop相关服务的厂商,对大数据市场的繁荣起到了重要作用。不过,在日前接受至顶网记者采访时,Doug Cutting表示,无论是Hadoop的使用还是大数据的应用目前仍处于早期,这个市场还大有潜力。

大数据应用还处于早期专访Hadoop之父Doug Cutting

Hadoop的创始人、Cloudera首席架构师Doug Cutting

没有想到Hadoop会这么火

今天的Hadoop可谓大名鼎鼎,但和众多开源软件开发人员一样,Doug Cutting开发Hadoop的目的非常简单,只是为了完成当时的一个项目。今天的“火”是Hadoop的创始人、Cloudera首席架构师Doug Cutting当初未曾预料到的。

“当时,我正在做一个名为Nutch的项目。希望采用开源的方式去创建出一种网络搜索的引擎,要求具有可扩展性、可收缩性的数据存储和处理能力。由于之前,我们看到了来自于Google的几篇论文,其中的想法和我的想法是完全一致的,所以我就把Google论文中的想法放到了Nutch项目当中来实施了,这就是今天的Hadoop。”Doug Cutting在接受记者采访时表示。

Doug Cutting说,他根本没有想到Hadoop今天会有如此之广的用途,当初想到的也仅仅就是用于搜索引擎和网站的创建上,看到Hadoop有今天如此广泛应用,他感觉到非常惊喜。

当然,其中最让Doug Cutting兴奋的还是Hadoop的生态。严格说来,今天的Hadoop已经不是一个开源项目,而是一个围绕着Hadoop形成的一组项目以及基于各个项目之上的大生态系统。比如,Hadoop项目就从最初的HDFS、HBase、MapReduce等不多的项目扩展到包括Spark在内的众多开源项目的集合,展示出强大的包容能力。而在生态上,围绕Hadoop已经形成了由Cloudera等Hadoop服务商、各种相关工具提供商、IaaS云平台供应商等众多合作伙伴组成的大生态。

毫无疑问,繁荣的Hadoop生态也正是Hadoop能走进今天的并且继续发展的主要原因。以Spark为例,曾经不少人认为Spark可能替换Hadoop,而实际上我们看到Hadoop的大生态让Spark很快融入起来,相互成为补充而不是对手。除了Spark之外,还有一些开源软件也与Hadoop社区有互动。比如kudu和Kafka。前者是一个非常强大的存储引擎,它既具备了类似Hbase的随机访问能力,同时又有HDFS快速查询能力;而Kafka有很强的实时应用支持能力和流处理能力。目前,Cloudera已经把这两个技术集成到Hadoop平台当中了。

Doug Cutting特别强调,在开源世界竞争的逻辑是不一样的,开源软件之间不是完全的竞争关系。因为没有哪个公司完全拥有开源技术,每当开源技术有了新的进展,开源群体的每一分子都会受益于其中。

“如果在有一些领域出现了新的技术,在某些方面会优于Hadoop,那Cloudera也会毫无犹豫地去接纳这样的技术,把它放到我们的解决方案当中去交付给客户。”他说。

云和AI对Hadoop是利好

AI是当今市场的一个热门话题,其今天的热度甚至超过了大数据。对此,Doug Cutting认为,AI对Hadoop是非常有利的,AI市场的繁荣也有利于Hadoop的普及。

“我觉得Hadoop和AI之间是非常适合、非常匹配的。因为AI本身就是一种大数据的应用。特别是在对于AI系统进行训练的时候,使用的数据越多,AI系统就越可能成功。”Doug Cutting介绍说,Google不久前发表了一篇关于应用AI进行图象识别的论文,最终结论也是对数十亿级的图片的人工智能系统还是进行训练使用的数据量越大,人工智能系统的质量就越高。

当然,Doug Cutting认为,推动Hadoop普及的不仅是AI,包括IoT、云等都对Hadoop的未来发展具有非常重要的作用,特别是云计算,将很大程度上影响Hadoop的交付。

目前,受限于网络条件和数据保密、合规等方面的原因,私有的、基于物理机的Hadoop模式依然是主流,云模式还是小众。比如,Cloudera的客户中云交付的不超过15%,但是Doug Cutting认为,这个数据肯定还会增长,预计会到40%-60%。

“本地安装运行Hadoop的形式来使用,往往要建一个很大的集群来支持各种不同的应用,并且拥有一个统一的数据拷贝,数据集中可控,但成本高;而云模式使得客户在使用Hadoop的方式上具有了更大的灵活性和可伸缩性,而且云供应商已经帮助他们管理了数据的拷贝。”Doug Cutting说。

Doug Cutting表示,从整个IT长远的发展趋势来看,IT的控制正在从在企业的某个部门扩散到各个不同的部门,因为非IT部门具有越来越大的能力,在IT方面进行自我管理、自我服务,也有越来越多的工具能够帮助他们做到这一点。而云计算是促进和推动了这一趋势的发展,也推动了数据的分散化、自助化。这是一个大趋势,也是云模式Hadoop增长的原因。

针对目前大数据应用的现状,这个Hadoop的创始人认为,大数据应用的普及是一个长期的过程,让每一家公司、每一个组织机构都能够用正确的方式来用好数据,这需要花很长的时间。因为这其中,需要组织结构本身发生很大的变化,还需要很多的教育工作和人才的培养工作,好在这一切都是在稳步推进当中。 

原文发布时间为:2017年7月25日

本文作者:邹大斌

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
2天前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
37 0
|
2天前
|
存储 NoSQL 大数据
【MongoDB 专栏】MongoDB 在大数据场景下的应用
【5月更文挑战第11天】MongoDB,适用于大数据时代,以其灵活数据模型、高可扩展性和快速性能在大数据场景中脱颖而出。它处理海量、多类型数据,支持高并发,并在数据分析、日志处理、内容管理和物联网应用中广泛应用。电商和互联网公司的案例展示了其在扩展性和业务适应性上的优势,但同时也面临数据一致性、资源管理、数据安全和性能优化的挑战。
【MongoDB 专栏】MongoDB 在大数据场景下的应用
|
2天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
27 0
|
2天前
|
分布式计算 监控 数据挖掘
MaxCompute的应用
【5月更文挑战第7天】MaxCompute的应用
28 8
|
2天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
2天前
|
分布式计算 Hadoop 大数据
[大数据] mac 史上最简单 hadoop 安装过程
[大数据] mac 史上最简单 hadoop 安装过程
|
2天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
25 0