【好书试读】大数据处理之道

简介: 近年来,“大数据”已然成为IT界如火如荼的词,与“云计算” 并驾齐驱,成为带动IT行业发展的两列高速火车。尤其是在物联网快速发展的时代,数据已经被称为新的资源,是支撑物联网发展的基石。
232ddd895a59eed934f4e380c10a26e4ad50ae4f


天猫购买链接: 大数据处理之道

近年来,“大数据”已然成为IT界如火如荼的词,与“云计算” 并驾齐驱,成为带动IT行业发展的两列高速火车。尤其是在物联网快速发展的时代,数据已经被称为新的资源,是支撑物联网发展的基石。
那么,如何把“死”的数据变成真正有效的“资源”,成为近年来IT界人士共同思考的问题。一时间,各种大数据处理技术如井喷一般涌现。Hadoop、 Spark、Storm、Dremel、Drill等大数据解决方案争先恐后地展现出来。需要说明的是,这里所有的方案并不是一种技术,而是数种甚至数十种技术的组合。就拿Hadoop来说,Hadoop只是“领头羊”,关键成员还有MapReduce、HDFS、Hive、HBase、Pig、ZooKeeper等,大有“八仙过海,各显神通”的气势和场面。
本书首先横向总结性地阐述了各种大数据处理技术,重点从缘起缘落、设计思想、架构原理等角度剖析了各种技术,分析了各种技术的优缺点和适用场景。本书并不涉及软件的安装等,因为如何安装和使用,在网络上搜索即可,着实没有必要浪费读者的时间和金钱。在这一部分,第1篇为Hadoop军营;第2篇为Spark星火燎原;第3篇讲述了其他大数据处理技术,如Storm、Dremel、Drill等。
其次阐述了大数据下的日志分析技术。在大数据时代,日志分析方案呈现出遍地开花的景象。如果将大数据处理系统比作一个可能得病的人,那么日志分析就是负责看病的医生,要想让大数据处理系统健康、平稳地运行,日志分析和监控非常重要。这一部分重点阐述了日志分析技术中如日中天的方案ELK。
最后展望了大数据处理技术的发展趋势。大数据处理技术发展迅猛,数据量越来越大,技术的革新在所难免。
作为大数据研发人员,只有时刻学习新技术,方能立于技术前沿。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
安全
隐语实训营笔记 第二讲
隐私计算通过开源促进数据要素安全流通,解决外循环中的信任问题。隐语开源项目旨在实现数据可用不可见、可算不可识、可控可计量的原则,统一产品度量标准,降低接入难度,构建完备的信任链,以推动数据的开放与共享。
39 0
|
1月前
|
算法 安全 数据安全/隐私保护
隐语实训营笔记 第三讲
隐私计算框架“隐语”提供全面的隐私保护技术,包括PSI、PIR和联邦学习等算法,层次间低耦合,支持开放合作。产品层包含多样化应用,计算层涉及SPU、HEU、TEEU及密码库YACL,资源层有kuscia管理,强调互联互通和跨域管控,旨在实现安全的数据协作。
12 0
|
1月前
|
存储 运维 安全
隐语实训营笔记 第一讲
构建数据可信流通体系,确保来源确认、范围界定、过程追溯及风险防范。该体系基于密码学和可信计算,包含身份验证(如CA证书和远程验证)、使用权跨域管控、安全分级测评和全链路审计。可信数字应用身份验证和跨域管控保护数据免于滥用,同时维护上下游利益。通过隐私、可信和机密计算技术,实现数据流通的控制面和数据面的平衡,即“不可能三角”。全链路审计形成内外循环的管控体系,密态天空计算作为基础设施,支持密态数据流通,解决数据安全保险中的定责和定损问题。
16 0
|
7月前
|
SQL 分布式计算 NoSQL
第14章 大数据管理——复习笔记
第14章 大数据管理——复习笔记
|
9月前
|
存储 编译器 C++
函数璀璨之路:探索C++函数的进阶之道
函数璀璨之路:探索C++函数的进阶之道
|
9月前
|
数据采集 存储 消息中间件
《阿里大数据之路》读书笔记:总述
阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。
|
机器学习/深度学习 缓存 架构师
十余年技术进阶路经验分享
篇也是我分享里为数不多“进阶”与“成长经历”的文章之一。被别人送到嘴边的食物永远是最香的,但是咱们还是得学会主动去"如何找吃的",授人以鱼不如授人以渔嘛,我希望通过这篇文章能给正在努力的你,迷茫的你,焦虑的你,带来或多或少的参考、建议或者指引。
287 0
十余年技术进阶路经验分享
|
SQL 机器学习/深度学习 算法
冬季实战营第五期:轻松入门学习大数据笔记
冬季实战营第五期:轻松入门学习大数据笔记
161 0
冬季实战营第五期:轻松入门学习大数据笔记
|
机器学习/深度学习 设计模式 JavaScript
2021阿里淘系工程师推荐书单
读书有点像机器学习从初始参数开始的局部最小化。 无论是数学、科学、技术、管理,还是历史、文学,读书的过程,就是根据一维的文字流,在立体的思维空间中重新建构。 这种建构的意义,将我们自身和世界连接了起来。 (阿里巴巴淘系技术部资深算法专家 乐田)
2021阿里淘系工程师推荐书单
|
机器学习/深度学习 Cloud Native 前端开发
阿里技术人和开发者朋友们的私藏书单
在快速变化、充满不确定的时代大背景下,拥抱变化成为常态。该如何应对、如何破局? 通过读书持续学习、持续精进,可能是其中成本最低、最高效的一种方式。
阿里技术人和开发者朋友们的私藏书单