《Hadoop与大数据挖掘》——导读

简介:


image

前  言

为什么要写这本书

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当时的4.4万亿GB,增长至44万亿GB,每两年翻一番。

既然“大数据”浪潮已经来临,那么与之对应的大数据人才呢?在国外,大数据技术发展正如火如荼,各种方便大家学习的资料、教程应有尽有。但是,在国内,这种资料却是有“门槛”的。其一,这类资料是英文的,对于部分人员来说,阅读是有难度的;其二,这些资料对于初学者或在校生来说,在理论理解上也有一些难度,没有充分的动手实践来协助理解大数据相关技术的原理、架构等;其三,在如何应用大数据技术来解决企业实实在在遇到的大数据相关问题方面,没有很好的资料;其四,对于企业用户来说,如何将大数据技术和数据挖掘技术相结合,对企业大量数据进行挖掘,以挖掘出有价值的信息,也是难点。

作为大数据相关技术,Hadoop无疑应用很广泛。Hadoop具有以下优势:高可靠性、高扩展性、高效性、高容错性、低成本、生态系统完善。

一般来说,使用Hadoop相关技术可以解决企业相关大数据应用,特别是结合诸如Mahout、Spark MLlib等技术,不仅可以对企业相关大数据进行基础分析,还能构建挖掘模型,挖掘企业大数据中有价值的信息。

对于学习大数据相关技术的高校师生来说,本书不仅提供了大数据相关技术的基础讲解及原理、架构分析,还针对这些原理,配备有对应的动手实践章节,帮助读者加深对原理、架构的认识。同时,在每个模块结束后,书中会有一个相对独立的企业应用案例,帮助读者巩固学到的大数据技术相关知识。

对于企业用户或大数据挖掘开发者来说,特别是对想要了解如何将大数据技术应用到企业大数据项目中的企业用户或者开发者来说,本书也是一份优秀的参考资料。

目 录

[第一篇 基础篇
第1章 浅谈大数据
1.1 大数据概述](https://yq.aliyun.com/articles/119062/)
1.2 大数据平台
1.3 本章小结
[第2章 大数据存储与运算利器—Hadoop
2.1 Hadoop概述](https://yq.aliyun.com/articles/119094/)
2.1.1 Hadoop简介
2.1.2 Hadoop存储—HDFS
2.1.3 Hadoop计算—MapReduce
2.1.4 Hadoop资源管理—YARN
2.1.5 Hadoop生态系统
2.2 Hadoop配置及IDE配置
2.2.1 准备工作
2.2.2 环境配置
2.2.3 集群启动关闭与监控
2.2.4 动手实践:一键式Hadoop集群启动关闭
2.2.5 动手实践:Hadoop IDE配置
2.3 Hadoop集群命令
2.3.1 HDFS常用命令hdfs dfs
2.3.2 动手实践:hdfs dfs命令实战
2.3.3 MapReduce常用命令mapred job
2.3.4 YARN常用命令yarn jar
2.3.5 动手实践:运行MapReduce任务
2.4 Hadoop编程开发
2.4.1 HDFS Java API操作
2.4.2 MapReduce原理
2.4.3 动手实践:编写Word Count程序并打包运行
2.4.4 MapReduce组件分析与编程实践
2.5 K-Means算法原理及HadoopMapReduce实现
2.5.1 K-Means算法原理
2.5.2 动手实践:K-Means算法实现
2.5.3 Hadoop K-Means算法实现思路
2.5.4 Hadoop K-Means编程实现
2.6 TF-IDF算法原理及HadoopMapReduce实现
2.6.1 TF-IDF算法原理
2.6.2 Hadoop TF-IDF编程思路
2.6.3 Hadoop TF-IDF编程实现
2.7 本章小结

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9月前
|
机器学习/深度学习 存储 分布式计算
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
|
机器学习/深度学习 数据采集 分布式计算
BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析
BR-MLP是基于大数据BR-ODP的分布式数据挖掘平台,基于Hadoop和Spark技术,支持海量数据挖掘。提供数据源、数据预处理、特征工程、统计分析、机器学习……组件。
990 0
|
消息中间件 分布式计算 大数据
Hadoop大数据挖掘从入门到进阶实战
1.概述   大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。
1954 0

相关实验场景

更多