Hadoop应用架构
作者: [美]Mark Grover、Ted Malaska、Jonathan Seidman、Gwen Shapira [译]郭文超
语言: 中文
出版年份: 2017
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

《Hadoop应用架构》是一本由Mark Grover、Ted Malaska、Jonathan Seidman和Gwen Shapira共同撰写的Hadoop应用架构设计指南,旨在帮助读者掌握如何在Hadoop平台上构建高效、可扩展的大数据应用。本书由人民邮电出版社出版,郭文超翻译,适合软件开发人员、架构师和项目主管等专业人士。

内容简介

本书分为两部分。第一部分聚焦于Hadoop应用架构设计的基础知识,包括数据建模、数据移动和数据处理等关键环节;第二部分则通过实际案例,展示如何将这些知识应用于解决实际问题。

第一部分:Hadoop应用架构设计基础

第1章:Hadoop数据建模
本章深入探讨了Hadoop数据存储和建模的关键技术。作者详细介绍了Hadoop支持的多种文件格式(如SequenceFile、Avro、Parquet等),并分析了它们的优缺点。同时,讨论了HDFS和HBase的数据组织方式,包括目录结构设计、分区、分桶和反向规范化等技术,以优化数据处理性能。此外,还涉及了元数据管理的重要性,以及Hive metastore和HCatalog在其中的作用。

第2章:Hadoop数据移动
数据的导入和导出是Hadoop应用中的重要环节。本章分析了数据采集的时效性、增量更新、数据源系统及数据结构等因素对数据采集策略的影响。介绍了文件传输、Sqoop、Flume和Kafka等工具在数据采集中的应用,并探讨了将数据从Hadoop导出到外部系统的方法和注意事项。

第3章:Hadoop数据处理
本章介绍了Hadoop生态系统中的多种数据处理框架,包括MapReduce、Spark、Pig、Crunch、Cascading和Hive等。详细讨论了MapReduce的工作原理和编程模型,以及Spark的DAG模型和RDD概念。同时,探讨了Pig、Crunch和Cascading等抽象工具如何简化MapReduce编程。

第二部分:实际案例研究

第8章:点击流分析
通过点击流分析的案例,展示了如何使用Hadoop生态系统中的工具(如Flume、Kafka、Spark等)构建完整的数据处理流水线。讨论了数据存储、采集、处理和分析的全过程。

第9章:欺诈检测
本章以欺诈检测为例,介绍了如何利用HBase、Spark Streaming等工具实现近实时数据处理。探讨了数据仓库的扩展、画像存储、数据采集和近实时处理等关键技术。

第10章:数据仓库扩展
讨论了如何使用Hadoop扩展传统数据仓库,包括数据建模、数据采集、数据处理和ETL流程的优化。通过实际案例,展示了Hadoop在企业级数据仓库中的应用。

读者对象

本书适合对Hadoop及其生态系统有基本了解的读者,尤其是那些希望深入了解如何将Hadoop应用于实际业务场景的专业人士。无论是软件开发人员、架构师还是项目主管,都能从本书中获得宝贵的指导和启发。

结语

《Hadoop应用架构》是一本全面、系统的Hadoop应用架构设计指南。它不仅涵盖了Hadoop生态系统中的核心技术和工具,还通过实际案例展示了如何将这些技术应用于解决实际问题。无论是初学者还是经验丰富的专业人士,都能从本书中获得宝贵的参考和指导。

期待您的支持
捐助本站