Big Data

作者：	Nathan Marz
语言：	英文
出版年份：	2015
下载链接：	PDF 城通网盘 EPUB 城通网盘 MOBI 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

本书由Nathan Marz与James Warren合著，由Manning Publications于2015年出版，是一本深入探讨大数据系统构建的理论与实践指南。作者Nathan Marz是Lambda架构的提出者，他在书中结合自身丰富的行业经验，系统地阐述了如何利用Lambda架构构建可扩展、低延迟且容错性强的大数据系统。

书籍内容概述

全书共18章，分为三个部分，分别介绍了Lambda架构的三个核心层次：批处理层（Batch Layer）、服务层（Serving Layer）和速度层（Speed Layer）。

第一部分：批处理层（Batch Layer）

批处理层是Lambda架构的基础，负责存储不可变的主数据集，并通过批处理计算生成预计算视图（Batch Views）。作者详细介绍了如何设计数据模型、选择存储解决方案以及使用MapReduce等工具进行大规模数据处理。书中以SuperWebAnalytics.com为例，展示了如何从零开始构建批处理层，包括数据的存储、计算和架构设计。

第二部分：服务层（Serving Layer）

服务层的作用是将批处理层生成的预计算视图进行索引，以便快速查询。作者讨论了服务层的性能指标、设计要求以及如何通过特定数据库实现高效的数据存储和查询。ElephantDB作为服务层数据库的示例，展示了如何在Lambda架构中实现低延迟读取和数据的快速更新。

第三部分：速度层（Speed Layer）

速度层用于补偿批处理层的高延迟，提供实时数据更新。作者深入探讨了实时视图的构建、存储和更新机制，包括使用Cassandra、Storm等工具实现增量计算和流处理。书中通过具体示例，展示了如何在速度层中处理数据的增量更新和一致性问题，以及如何通过多消费者队列和流处理技术实现高效的数据处理。

核心理念与方法

书中强调了Lambda架构的核心理念：通过将数据系统分解为批处理层、服务层和速度层，利用各自的优势解决大数据处理中的复杂性问题。批处理层负责大规模数据的预处理和分析，服务层提供快速查询能力，速度层则专注于实时数据的快速更新。这种分层架构不仅提高了系统的可扩展性和容错性，还降低了系统的复杂性，使得大数据系统的构建更加简单和高效。

实践与案例

本书不仅提供了理论指导，还通过SuperWebAnalytics.com案例贯穿始终，展示了如何将Lambda架构应用于实际的大数据系统构建。作者详细介绍了从数据模型设计到具体实现的每一步，包括如何使用Apache Thrift、Hadoop、Cassandra、Storm等开源工具。这些实践案例使读者能够更好地理解和应用书中的理论知识。

适用读者

本书适合对大数据系统设计和开发感兴趣的读者，包括数据工程师、架构师和相关领域的研究人员。读者无需具备大数据处理的先验知识，但熟悉传统数据库和编程基础将有助于更好地理解书中的内容。通过阅读本书，读者将能够掌握构建高效、可扩展大数据系统的方法和技巧，并学会如何在实际项目中应用Lambda架构。

总之，《Big Data: Principles and best practices of scalable realtime data systems》是一本全面、深入且实用的大数据系统构建指南。它不仅提供了系统的理论框架，还结合了丰富的实践案例，是大数据领域不可多得的经典之作。