作者: | [美] Holden Karau [美] Andy Konwinski [美] Patrick Wendell [加] Matei Zaharia [译] 王道远 |
语言: | 中文 |
出版年份: | 2015 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Spark快速大数据分析》是一本由Holden Karau、Andy Konwinski、Patrick Wendell和Matei Zaharia合著的书籍,于2015年由人民邮电出版社出版。本书深入探讨了Apache Spark这一快速、通用的集群计算平台,旨在帮助读者掌握如何利用Spark进行高效的大数据处理和分析。
Spark是一个用于实现快速而通用的集群计算的平台。其核心特点包括:
Spark的核心组件构成了一个统一的软件栈,主要包括:
Spark广泛应用于数据科学和数据处理领域,具体包括:
Spark支持多种存储系统,包括Hadoop分布式文件系统(HDFS)、本地文件系统、亚马逊S3等。它不仅可以读取HDFS上的文件,还支持其他实现了Hadoop接口的存储系统。在部署方面,Spark可以运行在Hadoop YARN、Apache Mesos等集群管理器上,也可以使用自带的独立调度器。
《Spark快速大数据分析》是一本全面介绍Apache Spark的书籍,涵盖了其核心概念、组件、优势和应用场景。通过本书,读者可以深入了解如何利用Spark进行高效的大数据处理和分析,掌握其强大的内存计算能力和通用性,从而在实际项目中发挥其最大价值。