Hadoop技术内幕: 深入解析MapReduce架构设计与实现原理

作者：	董西成
语言：	中文
出版年份：	2013
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

本书深入剖析了Hadoop MapReduce框架的架构设计与实现原理，以Hadoop 1.0为基础，为读者全面展示了Hadoop MapReduce的内部机制。全书分为四大部分，涵盖了基础篇、MapReduce编程模型篇、MapReduce核心设计篇以及MapReduce高级篇，系统地介绍了从Hadoop学习环境搭建到高级特性应用的全过程。

在基础篇中，作者首先介绍了如何搭建Hadoop源代码学习环境，包括在Linux和Windows系统下的搭建方法、Hadoop源代码的获取与编译调试技巧。通过详细的操作步骤和实例，读者可以快速构建一个高效的Hadoop学习环境。此外，还介绍了Hadoop的发展历程、设计理念与基本架构，为后续深入学习奠定了基础。

MapReduce编程模型篇详细讲解了MapReduce编程接口，包括旧API和新API的设计思路与使用方法。通过对比分析，读者可以清晰地理解两套API的异同点，并掌握如何使用这些API进行MapReduce程序的开发。此外，书中还介绍了Hadoop Streaming、Hadoop Pipes等非Java API的使用，以及如何通过JobControl、ChainMapper/ChainReducer等工具实现复杂作业的调度和链式处理。

MapReduce核心设计篇是本书的重点，深入剖析了Hadoop MapReduce的运行时环境。作者详细分析了Hadoop RPC框架的实现原理，包括其设计目标、序列化机制、函数调用方式以及网络传输模型。通过对JobTracker和TaskTracker的内部实现剖析，读者可以深入了解作业提交、初始化、任务调度、容错机制以及资源管理等核心功能的实现细节。此外，书中还对Task运行过程进行了详细分析，包括Map Task和Reduce Task的内部实现机制、性能优化方法等。

在MapReduce高级篇中，作者探讨了Hadoop MapReduce的高级特性与未来发展趋势。介绍了Hadoop性能调优的方法，包括从管理员和用户角度进行的优化策略。同时，详细分析了Hadoop多用户作业调度器的实现原理，如Fair Scheduler和Capacity Scheduler等，并介绍了Hadoop的安全机制，包括基于Kerberos的认证和授权机制。此外，书中还对下一代MapReduce框架进行了展望，包括Apache YARN、Facebook Corona和Apache Mesos等。

本书适合Hadoop二次开发人员、应用开发人员、运维工程师以及开源软件爱好者阅读。通过深入学习本书，读者可以全面掌握Hadoop MapReduce的设计原理和实现细节，提升对Hadoop框架的理解和应用能力，为解决实际问题提供有力支持。