Spark高级数据分析(第2版)
作者: [美] 桑迪·里扎 [美] 于里·莱瑟森 [英] 肖恩· 欧文 [美] 乔希·威尔斯 [译] 龚少成 邱鑫
语言: 中文
出版年份: 2018
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

《Spark高级数据分析(第2版)》是一本由知名数据科学家桑迪·里扎(Sandy Ryza)、于里·莱瑟森(Uri Laserson)、肖恩·欧文(Sean Owen)和乔希·威尔斯(Josh Wills)共同撰写的实战宝典,由人民邮电出版社出版。本书基于Apache Spark的最新发展,对Spark的样例代码和资料进行了全面更新,涵盖了Spark的核心API、MLlib和Spark SQL等子项目的重要变化。

本书适合从事数据分析的专业人员,旨在帮助读者掌握使用Spark进行大规模数据分析的方法。全书内容丰富,分为多个章节,每章围绕一个特定主题展开,涵盖从基础到高级的数据分析技术。书中不仅介绍了Spark的基本概念和编程模型,还通过实际案例展示了如何使用Spark解决复杂的数据分析问题。

主要内容

  • 第1章:介绍了大数据分析的背景和Spark在数据科学中的重要性,强调了数据预处理、迭代和模型部署等关键挑战。
  • 第2章:通过记录关联问题的案例,详细介绍了如何使用Spark和Scala进行数据清洗、处理和分析。
  • 第3章:探讨了音乐推荐系统,使用Audioscrobbler数据集和ALS算法构建推荐模型,并评估其性能。
  • 第4章:通过Covtype数据集,介绍了决策树和随机森林算法在森林植被预测中的应用。
  • 第5章:基于K均值聚类算法,分析了网络流量异常检测问题,使用KDD Cup 1999数据集进行实验。
  • 第6章:通过潜在语义分析(LSA)算法,分析了维基百科文档中的主题和词项关系。
  • 第7章:使用GraphX分析了MEDLINE文献引用索引中的伴生网络,探讨了网络结构和连通性。
  • 第8章:结合纽约出租车轨迹数据,介绍了空间和时间数据分析的方法。
  • 第9章:通过蒙特卡罗模拟,评估了金融风险,介绍了VaR计算方法。
  • 第10章:探讨了基因数据分析,使用BDG项目处理基因学数据。
  • 第11章:介绍了基于PySpark和Thunder的神经图像数据分析方法。

特点

  • 实战性强:书中通过丰富的案例展示了Spark在不同领域的应用,帮助读者快速上手。
  • 内容更新:根据Spark的最新版本进行了全面更新,涵盖了Dataset和DataFrame的使用。
  • 易于理解:作者通过详细解释和逐步改进的方法,使复杂的分析过程变得易于理解。
  • 适用广泛:不仅适合数据科学家,也适合对大数据分析感兴趣的读者。

《Spark高级数据分析(第2版)》是一本全面且实用的Spark学习指南,适合希望在大数据领域深入发展的专业人士阅读。

期待您的支持
捐助本站