| 作者: | Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills |
| 语言: | 英文 |
| 出版年份: | 2022 |
| 编程语言: | Python |
| 下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Advanced Analytics with PySpark》是一本面向数据科学与大数据工程交界处的实践型教程,聚焦如何用 PySpark 在大规模数据上完成真实分析任务。它不是 Spark API 参考手册,也不是机器学习或统计学教材,而是通过一组完整案例展示数据清洗、特征处理、建模、评估与应用化之间的工作流。2022 版更新到 Spark 3.x 语境,并从早期版本的 Scala 转向 Python,更贴近当下 PyData 生态中的数据科学实践。
全书的核心路径是:先建立对 Spark、PySpark、DataFrame、分布式执行模型的基本理解,再进入一系列自包含的分析项目。每个项目都围绕一种典型数据形态或算法问题展开,强调如何在数据规模、算法选择、工程约束和生产可用性之间做取舍。书中反复提醒读者:大数据分析的难点不只是训练模型,还包括脏数据、迭代实验、缓存与分区、特征选择、结果解释以及把分析转化为可运行的数据应用。
第一章介绍大数据、分布式系统、Spark 组件、PySpark 与 Spark 3.x 的变化,帮助读者判断什么时候需要 Spark,什么时候单机工具反而更合适。
第二章以记录链接数据集为例,讲解 PySpark DataFrame、CSV 读取、Schema、缺失值、缓存、聚合、SQL 与 DataFrame API 的配合,并把数据清洗自然引入简单分类任务。
第三章到第五章进入常见机器学习场景,包括基于 Audioscrobbler 数据的音乐推荐、用决策树和随机森林预测森林覆盖类型,以及用 K-means 做异常检测,重点不只是调用算法,而是围绕特征、评估和数据规模组织流程。
第六章到第八章扩展到文本、时空和金融分析:用 LDA 与 Spark NLP 理解 Wikipedia 文本关系,分析纽约出租车的地理与时间模式,并通过蒙特卡洛方法估计投资组合风险。
第九章到第十一章覆盖更专门的应用,包括基因组数据分析、结合深度学习与 PySpark LSH 的图像相似度检测,以及用 MLflow 管理机器学习生命周期,体现 Spark 在多领域数据应用中的连接能力。
本书适合已经会 Python、了解基础数据分析或机器学习概念,并希望把 pandas/本地实验能力扩展到集群和大数据环境的读者。数据科学家、机器学习工程师、数据工程师都能从案例中获得实践参照。若读者需要的是 Spark 全量配置手册、流处理或图计算专题,或还没有基本 Python 与数据处理经验,这本书并不适合作为第一本入门书。
这本书的价值在于把 PySpark 放回真实分析问题中讲,而不是孤立介绍函数。它覆盖的案例跨度较大,能帮助读者形成“何时用 Spark、怎样组织数据管道、如何把分析推进到可复用应用”的判断。对于想从小规模 Python 数据分析迈向大规模生产型分析的人,它比单纯 API 教程更有启发;但也要求读者愿意在案例中主动补足机器学习和统计背景。