《Hadoop MapReduce性能优化》一导读

简介: MapReduce是一个重要的并行处理模型,用于大规模、数据密集型应用,比如数据挖掘和Web索引。Hadoop作为MapReduce的一个开源实现,广泛用于支持对响应时间要求很严苛的集群计算作业。


q1

前 言

Hadoop MapReduce性能优化
MapReduce是一个重要的并行处理模型,用于大规模、数据密集型应用,比如数据挖掘和Web索引。Hadoop作为MapReduce的一个开源实现,广泛用于支持对响应时间要求很严苛的集群计算作业。

多数MapReduce程序的开发是以数据分析为目的的,这通常需要花费很长的时间。许多公司正在用Hadoop在更大的数据集上做更高级的数据分析,当然这更加需要运行时间的保障。运行效率,尤其是MapReduce的I/O开销,仍然是需要解决的问题。经验表明,配置不当的Hadoop集群会明显降低MapReduce作业的执行性能,甚至会造成显著的性能降级。

在本书中,我们致力于解决MapReduce优化问题:怎样识别系统的短板,怎样做才能充分利用Hadoop集群资源更好地处理输入数据。本书先介绍MapReduce内部工作原理,并讨论可能影响性能的因素,之后研究Hadoop性能指标(metrics)与性能检测工具,并识别资源短板,如CPU竞争、内存利用率、海量I/O存储以及网络流量。

本书基于实际经验,以循序渐进的方式教读者消除作业瓶颈,并在生产环境下全面优化MapReduce作业。除此之外,读者还将学到如何通过计算得出恰当地处理数据的集群节点数,如何根据硬件资源定义恰当的mapper和reducer任务数,以及如何用压缩技术和combiner优化mapper和reducer任务的性能。

最后,读者将会了解Hadoop集群调优的最佳实践和建议,并认识MapReduce模板类。

目 录

第 1 章  了解Hadoop MapReduce
1.1  MapReduce模型
1.2  Hadoop MapReduce概述
1.3  Hadoop MapReduce的工作原理
1.4  影响MapReduce性能的因素
1.5  小结
第 2 章  Hadoop参数概述
2.1  研究Hadoop参数
2.2  Hadoop MapReduce性能指标
2.3  性能监测工具
2.4  用Apache Ambari监测Hadoop
2.5  小结
第 3 章 检测系统瓶颈
第 4 章 识别资源薄弱环节
第 5 章 强化map和reduce任务
第 6 章 优化MapReduce任务
第 7 章 最佳实践与建议

相关文章
|
4月前
|
分布式计算 Hadoop
Hadoop系列 mapreduce 原理分析
Hadoop系列 mapreduce 原理分析
40 1
|
4月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
60 0
|
3月前
|
存储 分布式计算 监控
Hadoop的JobTracker和TaskTracker在MapReduce中的作用是什么?
Hadoop的JobTracker和TaskTracker在MapReduce中的作用是什么?
55 0
|
4月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
264 0
|
4月前
|
存储 分布式计算 资源调度
干翻Hadoop系列文章【03】:MapReduce概念详解
干翻Hadoop系列文章【03】:MapReduce概念详解
|
4月前
|
存储 分布式计算 搜索推荐
【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战(附源码和数据集 超详细)
【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战(附源码和数据集 超详细)
46 0
|
4月前
|
分布式计算 Hadoop 大数据
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
151 0
|
8月前
|
数据采集 分布式计算 搜索推荐
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
|
8月前
|
数据采集 缓存 分布式计算
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)
|
8月前
|
分布式计算 Hadoop 数据处理
Hadoop基础学习---6、MapReduce框架原理(二)
Hadoop基础学习---6、MapReduce框架原理(二)

热门文章

最新文章