Mastering Large Datasets with Python

作者：	J.T. Wolohan
语言：	英文
出版年份：	2020
编程语言：	Python
下载链接：	PDF 城通网盘 EPUB 城通网盘 MOBI 城通网盘 CODE 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

本书由John T. Wolohan撰写，是一本专注于使用Python处理大规模数据集的实用指南。全书围绕如何通过并行化和分布式计算来优化Python代码，以应对大数据挑战，适合有一定Python基础的开发者和数据科学家。

第一部分：并行与分布式计算基础

书中首先介绍了并行计算的基本概念，包括如何使用Python的map函数进行数据转换以及如何通过reduce函数进行数据汇总。作者通过具体案例，如网页抓取和数据清洗，展示了如何将这些函数应用于实际问题，并详细讲解了如何利用多核处理器加速任务执行。此外，书中还探讨了分布式计算的概念，介绍了Hadoop和Spark这两个流行的分布式计算框架，以及如何将它们与Python结合使用。

第二部分：高级并行化与分布式计算

在第二部分中，作者深入探讨了如何在分布式环境中处理大规模数据集。书中详细介绍了Hadoop的MapReduce编程模型，以及如何使用mrjob库在Hadoop上编写Python代码。此外，还介绍了Spark的高级功能，包括其DataFrame API和机器学习库。通过具体案例，如使用PageRank算法对网球选手进行排名，作者展示了如何在Spark中实现复杂的分布式计算任务。

第三部分：云平台上的大规模数据处理

本书的第三部分聚焦于如何在云平台上处理大规模数据集。作者以Amazon Web Services（AWS）为例，详细介绍了如何使用AWS的S3服务存储数据，以及如何通过Elastic MapReduce（EMR）服务在云上运行Hadoop和Spark作业。书中不仅提供了如何设置AWS账户和使用S3存储的详细步骤，还通过具体案例展示了如何在EMR上运行Hadoop和Spark作业，以及如何利用云平台的弹性计算能力来处理大规模数据。

核心内容与特色

并行化与分布式计算：详细介绍了如何使用Python的map和reduce函数进行并行化和分布式计算，以及如何利用多核处理器和分布式框架（如Hadoop和Spark）加速数据处理。
云平台集成：深入探讨了如何将Python代码与AWS的S3和EMR服务结合，以实现大规模数据的存储和处理。
机器学习应用：介绍了如何在Spark中使用机器学习算法（如决策树和随机森林）来处理大规模数据集，并提供了具体的实现案例。
实战案例：书中通过多个实际案例，如网页抓取、数据清洗、网球选手排名等，展示了如何将理论应用于实际问题，帮助读者快速掌握技能。

适用人群

本书适合有一定Python基础的开发者和数据科学家，尤其是那些需要处理大规模数据集的读者。通过阅读本书，读者将能够掌握如何使用并行化和分布式计算技术来优化Python代码，提高数据处理效率，并学会如何在云平台上部署和管理大规模数据处理任务。

总体而言，《Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code》是一本内容丰富、实用性强的书籍，为读者提供了从基础到高级的全面指导，是学习大规模数据处理的绝佳选择。