Hadoop Application Architectures

作者：	Mark Grover, Ted Malaska, Jonathan Seidman and Gwen Shapira
语言：	英文
出版年份：	2015
下载链接：	PDF 城通网盘 EPUB 城通网盘 MOBI 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Hadoop Application Architectures》由四位Cloudera解决方案架构师合著，聚焦于如何利用Hadoop生态系统构建端到端的大数据应用。本书不仅涵盖Hadoop核心组件（如HDFS、MapReduce）的基础知识，更强调如何将不同工具（如Hive、HBase、Flume、Sqoop等）整合为完整的解决方案。全书分为两大部分：架构设计原则与实际案例研究，兼顾理论指导与实践参考。

第一部分：Hadoop应用架构设计原则

第1章数据建模

存储格式选择：对比文本文件、序列文件、列式存储（Parquet/ORC）及序列化框架（Avro/Protocol Buffers）的适用场景，强调压缩格式（Snappy/Gzip）的可拆分性。
HDFS模式设计：探讨目录结构规划（如/data、/etl）、分区（Partitioning）、分桶（Bucketing）策略，以及反规范化（Denormalization）对查询性能的影响。
HBase模式设计：重点分析行键设计（Row Key Salting）、时间戳管理、列族优化，强调避免多跳查询（Multi-hop）以降低延迟。

第2章数据移动

批处理与流式摄取：对比Sqoop（关系型数据库批量导入）、Flume（日志流式收集）、Kafka（高吞吐消息队列）的适用场景，分析网络瓶颈与安全策略。
文件传输优化：讨论单跳（Direct Mount）与双跳（Edge Node中转）模式，推荐使用容器格式（如Avro）解决小文件问题。
元数据管理：介绍Hive Metastore的核心作用，以及如何通过HCatalog实现跨工具（Pig/MapReduce）的元数据共享。

第3章数据处理框架

MapReduce：详解Mapper/Reducer生命周期、Combiner优化、Shuffle机制及其I/O瓶颈，指出其迭代计算效率低的局限性。
Spark：对比RDD内存计算优势，介绍DAG执行引擎如何减少磁盘IO，列举Spark SQL/Streaming的应用场景。
高阶抽象工具：对比Pig（脚本化ETL）、Crunch（Java API）、Hive（SQL接口）、Impala（低延迟查询）的适用性。

第4-7章进阶主题

常见处理模式：如去重（Deduplication）、时间窗口分析（Windowing）、时间序列更新策略。
图处理：Giraph（BSP模型）与GraphX（基于RDD）的分布式图计算对比。
工作流编排：Oozie的任务调度、参数化流程设计，以及频率触发与数据触发模式。
近实时处理：Storm（拓扑结构）、Spark Streaming（微批处理）及Flume拦截器的流式处理架构。

第二部分：案例研究

第8章点击流分析

架构设计：通过Flume/Kafka采集客户端日志，使用HDFS存储原始数据，通过MapReduce/Spark进行会话化（Sessionization）与去重。
关键挑战：数据延迟控制、会话超时处理、多维分析（如用户路径分析）的性能优化。

第9章欺诈检测

实时特征计算：利用HBase存储用户画像，结合Storm/Spark Streaming实现交易实时评分，通过规则引擎（Drools）动态拦截高风险操作。
权衡设计：低延迟响应（<100ms）与复杂规则执行的资源分配策略。

第10章数据仓库扩展

Hadoop与EDW协同：通过Sqoop实现传统数据仓库（如Teradata）与Hadoop的双向同步，利用Hive/Impala构建逻辑数据仓库（LDW）。
维度建模优化：星型模式转换、缓慢变化维（SCD）处理，以及基于Parquet的列式存储加速聚合查询。

核心价值

本书通过“设计原则+案例落地”的双视角，为架构师提供以下关键洞见：

工具选型方法论：根据数据特征（结构化/非结构化）、延迟要求（批量/实时）、访问模式（随机/顺序）选择存储与计算框架。
性能优化实践：从分区策略到压缩算法，从JVM调优到网络瓶颈诊断，覆盖全链路优化点。
生态整合指南：详解Hadoop与传统系统（RDBMS、消息队列）的集成模式，避免架构孤岛。

书籍摘要

第一部分：Hadoop应用架构设计原则

第1章 数据建模

第2章 数据移动

第3章 数据处理框架

第4-7章 进阶主题