作者: | J.T. Wolohan |
语言: | 英文 |
出版年份: | 2020 |
编程语言: | Python |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
本书由John T. Wolohan撰写,是一本专注于使用Python处理大规模数据集的实用指南。全书围绕如何通过并行化和分布式计算来优化Python代码,以应对大数据挑战,适合有一定Python基础的开发者和数据科学家。
书中首先介绍了并行计算的基本概念,包括如何使用Python的map
函数进行数据转换以及如何通过reduce
函数进行数据汇总。作者通过具体案例,如网页抓取和数据清洗,展示了如何将这些函数应用于实际问题,并详细讲解了如何利用多核处理器加速任务执行。此外,书中还探讨了分布式计算的概念,介绍了Hadoop和Spark这两个流行的分布式计算框架,以及如何将它们与Python结合使用。
在第二部分中,作者深入探讨了如何在分布式环境中处理大规模数据集。书中详细介绍了Hadoop的MapReduce编程模型,以及如何使用mrjob库在Hadoop上编写Python代码。此外,还介绍了Spark的高级功能,包括其DataFrame API和机器学习库。通过具体案例,如使用PageRank算法对网球选手进行排名,作者展示了如何在Spark中实现复杂的分布式计算任务。
本书的第三部分聚焦于如何在云平台上处理大规模数据集。作者以Amazon Web Services(AWS)为例,详细介绍了如何使用AWS的S3服务存储数据,以及如何通过Elastic MapReduce(EMR)服务在云上运行Hadoop和Spark作业。书中不仅提供了如何设置AWS账户和使用S3存储的详细步骤,还通过具体案例展示了如何在EMR上运行Hadoop和Spark作业,以及如何利用云平台的弹性计算能力来处理大规模数据。
map
和reduce
函数进行并行化和分布式计算,以及如何利用多核处理器和分布式框架(如Hadoop和Spark)加速数据处理。本书适合有一定Python基础的开发者和数据科学家,尤其是那些需要处理大规模数据集的读者。通过阅读本书,读者将能够掌握如何使用并行化和分布式计算技术来优化Python代码,提高数据处理效率,并学会如何在云平台上部署和管理大规模数据处理任务。
总体而言,《Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code》是一本内容丰富、实用性强的书籍,为读者提供了从基础到高级的全面指导,是学习大规模数据处理的绝佳选择。