Data Science with Python and Dask
作者: Jesse C. Daniel
语言: 英文
出版年份: 2019
编程语言: Python
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

《Data Science with Python and Dask》是由 Jesse C. Daniel 编写的关于 Python 数据科学和 Dask 框架的实用指南。本书于 2019 年由 Manning Publications 出版,旨在帮助数据科学家、数据工程师和分析师掌握使用 Dask 进行大规模数据处理和分析的技能。

书籍结构

本书分为三个部分,共 11 章,涵盖了从基础到高级的数据科学工作流程,包括数据准备、分析、可视化和部署。

第一部分:可扩展计算的基础

  • 第 1 章:介绍了可扩展计算的重要性,解释了 Dask 的优势以及有向无环图(DAG)的概念。
  • 第 2 章:通过实际示例展示了 Dask 如何使用 DAG 分布式处理数据,并介绍了任务调度器的工作原理。

第二部分:使用 Dask DataFrames 处理结构化数据

  • 第 3 章:详细介绍了 Dask DataFrames 的设计和使用,包括如何处理结构化数据。
  • 第 4 章:讲解了如何从各种数据源(如文本文件、数据库、HDFS 和 S3)加载数据到 DataFrames。
  • 第 5 章:深入探讨了数据清洗和转换的常见任务,例如处理缺失值、数据重编码和过滤。
  • 第 6 章:介绍了如何使用内置聚合函数和自定义聚合函数进行描述性统计分析。
  • 第 7 章:通过 Seaborn 库展示了如何进行数据可视化,包括散点图、回归图和小提琴图。
  • 第 8 章:利用 Datashader 和 Bokeh 库,讲解了如何绘制交互式热力图,特别适用于地理数据的可视化。

第三部分:扩展和部署 Dask

  • 第 9 章:探讨了如何使用 Dask Bags 和 Arrays 处理非结构化数据,并介绍了与 NLTK 库结合进行文本分析的方法。
  • 第 10 章:介绍了如何使用 Dask-ML 构建和评估机器学习模型,包括逻辑回归、朴素贝叶斯分类器和超参数调优。
  • 第 11 章:详细指导了如何在 AWS 上使用 Docker 构建 Dask 集群,并运行和监控分布式任务。

书籍特色

  • 实用性强:书中提供了大量实际代码示例和 Jupyter Notebook,读者可以轻松上手实践。
  • 案例驱动:以纽约市停车罚单数据集为例,贯穿全书,帮助读者理解如何应用 Dask 解决实际问题。
  • 全面覆盖:从数据加载、清洗、分析到可视化和模型部署,涵盖了数据科学的完整流程。
  • 易于上手:适合初学者和中级数据科学家,即使没有分布式计算经验也能快速掌握 Dask 的使用。

适用读者

本书主要面向对 Python 数据科学感兴趣的初学者和中级数据科学家,尤其是那些尚未掌握处理超出单机限制的数据集的读者。对于已经熟悉 PySpark 等分布式框架的读者,本书也提供了对比和参考价值。

《Data Science with Python and Dask》是一本全面且实用的指南,能够帮助读者在数据科学领域中更高效地处理大规模数据集。通过学习本书,读者将能够掌握 Dask 的强大功能,并将其应用于实际项目中。

期待您的支持
捐助本站