Spark快速大数据分析

作者：	[美] Holden Karau [美] Andy Konwinski [美] Patrick Wendell [加] Matei Zaharia [译] 王道远
语言：	中文
出版年份：	2015
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Spark快速大数据分析》是一本由Holden Karau、Andy Konwinski、Patrick Wendell和Matei Zaharia合著的书籍，于2015年由人民邮电出版社出版。本书深入探讨了Apache Spark这一快速、通用的集群计算平台，旨在帮助读者掌握如何利用Spark进行高效的大数据处理和分析。

主要内容

1. Spark简介

Spark是一个用于实现快速而通用的集群计算的平台。其核心特点包括：

速度快：Spark通过在内存中进行计算，显著提升了数据处理速度，尤其适用于迭代算法和交互式查询。
通用性：Spark支持多种计算模式，包括批处理、流处理、机器学习和图计算，适用于多种大数据处理场景。

2. Spark的核心组件

Spark的核心组件构成了一个统一的软件栈，主要包括：

Spark Core：负责任务调度、内存管理、错误恢复等基本功能，并提供了弹性分布式数据集（RDD）的API。
Spark SQL：用于处理结构化数据，支持SQL查询和多种数据源（如Hive、Parquet、JSON等），并允许开发者将SQL与RDD编程结合使用。
Spark Streaming：用于实时数据流处理，支持高吞吐量和容错性。
MLlib：提供常见的机器学习算法，如分类、回归、聚类等，并支持模型评估和数据导入。
GraphX：用于图计算，支持并行图操作和常用图算法。

3. Spark的优势

易用性：Spark提供了高级API，使开发者能够专注于数据处理逻辑，而无需过多关注底层集群管理。
高效性：Spark的内存计算模型使其在处理大规模数据时表现出色，尤其适用于迭代算法和交互式查询。
通用性：Spark可以用于多种计算任务，包括SQL查询、文本处理、机器学习等，使其成为大数据处理的通用引擎。

4. Spark的应用场景

Spark广泛应用于数据科学和数据处理领域，具体包括：

数据科学：用于数据分析和机器学习任务。
数据处理：用于批处理、流处理和实时数据分析。

5. Spark的存储与部署

Spark支持多种存储系统，包括Hadoop分布式文件系统（HDFS）、本地文件系统、亚马逊S3等。它不仅可以读取HDFS上的文件，还支持其他实现了Hadoop接口的存储系统。在部署方面，Spark可以运行在Hadoop YARN、Apache Mesos等集群管理器上，也可以使用自带的独立调度器。

总结

《Spark快速大数据分析》是一本全面介绍Apache Spark的书籍，涵盖了其核心概念、组件、优势和应用场景。通过本书，读者可以深入了解如何利用Spark进行高效的大数据处理和分析，掌握其强大的内存计算能力和通用性，从而在实际项目中发挥其最大价值。