Advanced Analytics with PySpark

作者：	Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills
语言：	英文
出版年份：	2022
编程语言：	Python
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Advanced Analytics with PySpark》是一本面向数据科学与大数据工程交界处的实践型教程，聚焦如何用 PySpark 在大规模数据上完成真实分析任务。它不是 Spark API 参考手册，也不是机器学习或统计学教材，而是通过一组完整案例展示数据清洗、特征处理、建模、评估与应用化之间的工作流。2022 版更新到 Spark 3.x 语境，并从早期版本的 Scala 转向 Python，更贴近当下 PyData 生态中的数据科学实践。

内容主线

全书的核心路径是：先建立对 Spark、PySpark、DataFrame、分布式执行模型的基本理解，再进入一系列自包含的分析项目。每个项目都围绕一种典型数据形态或算法问题展开，强调如何在数据规模、算法选择、工程约束和生产可用性之间做取舍。书中反复提醒读者：大数据分析的难点不只是训练模型，还包括脏数据、迭代实验、缓存与分区、特征选择、结果解释以及把分析转化为可运行的数据应用。

章节内容

第一章介绍大数据、分布式系统、Spark 组件、PySpark 与 Spark 3.x 的变化，帮助读者判断什么时候需要 Spark，什么时候单机工具反而更合适。

第二章以记录链接数据集为例，讲解 PySpark DataFrame、CSV 读取、Schema、缺失值、缓存、聚合、SQL 与 DataFrame API 的配合，并把数据清洗自然引入简单分类任务。

第三章到第五章进入常见机器学习场景，包括基于 Audioscrobbler 数据的音乐推荐、用决策树和随机森林预测森林覆盖类型，以及用 K-means 做异常检测，重点不只是调用算法，而是围绕特征、评估和数据规模组织流程。

第六章到第八章扩展到文本、时空和金融分析：用 LDA 与 Spark NLP 理解 Wikipedia 文本关系，分析纽约出租车的地理与时间模式，并通过蒙特卡洛方法估计投资组合风险。

第九章到第十一章覆盖更专门的应用，包括基因组数据分析、结合深度学习与 PySpark LSH 的图像相似度检测，以及用 MLflow 管理机器学习生命周期，体现 Spark 在多领域数据应用中的连接能力。

适用读者

本书适合已经会 Python、了解基础数据分析或机器学习概念，并希望把 pandas/本地实验能力扩展到集群和大数据环境的读者。数据科学家、机器学习工程师、数据工程师都能从案例中获得实践参照。若读者需要的是 Spark 全量配置手册、流处理或图计算专题，或还没有基本 Python 与数据处理经验，这本书并不适合作为第一本入门书。

总评

这本书的价值在于把 PySpark 放回真实分析问题中讲，而不是孤立介绍函数。它覆盖的案例跨度较大，能帮助读者形成“何时用 Spark、怎样组织数据管道、如何把分析推进到可复用应用”的判断。对于想从小规模 Python 数据分析迈向大规模生产型分析的人，它比单纯 API 教程更有启发；但也要求读者愿意在案例中主动补足机器学习和统计背景。