Practical Data Science with Jupyter 2nd Edition

作者：	Prateek Gupta
语言：	英文
出版年份：	2021
编程语言：	Python
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Practical Data Science with Jupyter》是由Prateek Gupta撰写，BPB Publications于2021年出版的一本面向数据科学实践的书籍。这本书旨在为读者提供一套完整的数据科学技能，涵盖数据清理、预处理、特征工程、机器学习等多个方面，通过结合Python语言和Jupyter环境，帮助读者快速掌握数据科学的核心知识与实践方法。

书籍结构与核心内容

第一部分：基础知识与环境搭建

第一章：数据科学基础
介绍了数据的基本类型（结构化、半结构化和非结构化数据），并阐述了数据科学家的职责以及Python在数据科学中的重要性。通过实例展示了数据的处理流程，包括数据收集、整理、可视化和建模。
第二章：系统安装与环境设置
详细讲解了如何安装Anaconda平台并设置Jupyter Notebook环境，为后续的数据科学实践做好准备。

第二部分：Python基础与数据结构

第三章：列表与字典
深入介绍了Python中列表和字典这两种基本数据结构的定义、创建和操作方法。通过大量实例，帮助读者理解这两种数据结构的应用场景及其与元组的区别。
第四章：包、函数与循环
讲解了Python中包的使用、函数的定义和调用方法，以及循环结构的语法和应用。这些内容为后续的数据科学实践提供了必要的编程基础。

第三部分：数据分析与机器学习

第五章：NumPy基础
介绍了NumPy库的基本概念、数组的创建与操作，以及如何使用NumPy进行高效的数组计算。NumPy作为科学计算的核心库，为数据处理提供了强大的支持。
第六章：Pandas与DataFrame
Pandas是数据分析中不可或缺的工具。本章详细讲解了Pandas的数据结构（Series和DataFrame），以及如何使用Pandas进行数据清洗、筛选和统计分析。
第七章：数据库交互
通过SQLAlchemy库，展示了如何在Python中与不同类型的数据库进行交互，包括创建表、插入数据、查询和更新数据等操作。
第八章：统计思维在数据科学中的应用
讲解了统计学在数据科学中的重要性，包括数据类型、概率、分布以及假设检验等基本概念。通过Python中的统计工具，帮助读者更好地理解和分析数据。

第四部分：数据导入、清洗与可视化

第九章：数据导入
介绍了如何导入不同格式的数据（如文本文件、CSV、Excel、JSON等），并使用Pandas进行初步处理。
第十章：数据清洗
数据清洗是数据科学中极为重要的一步。本章讲解了如何处理缺失值、异常值，以及如何进行数据规范化和编码等操作。
第十一章：数据可视化
使用Matplotlib和Seaborn库，介绍了如何绘制各种图表（如条形图、折线图、散点图等），帮助读者通过可视化手段更好地理解数据。

第五部分：机器学习实践

第十二章：数据预处理与特征工程
通过实际案例，展示了如何对数据进行预处理和特征工程，为后续的机器学习建模做好准备。
第十三章：监督学习
详细介绍了监督学习的基本概念、常见的机器学习算法（如逻辑回归、决策树、支持向量机等），并通过实例展示了如何使用scikit-learn库进行模型训练和评估。
第十四章：无监督学习
讲解了无监督学习的概念、常见算法（如K均值聚类、主成分分析等），并通过案例展示了如何在实际问题中应用这些算法。
第十五章：时间序列数据处理
介绍了时间序列数据的特点、处理方法以及常见的时间序列模型（如ARIMA、SARIMA等）。
第十六章：时间序列预测方法
通过具体的案例，讲解了如何使用Python中的statsmodels库进行时间序列预测。

第六部分：实战案例与项目实践

第十七到二十章：实战案例
通过多个实际案例（如贷款违约预测、垃圾短信分类、电影推荐系统、房价预测等），展示了如何将前面所学的知识应用于解决实际数据科学问题。这些案例涵盖了数据预处理、模型选择、调参以及结果评估等完整流程。
第二十一章：Python虚拟环境与项目管理
讲解了如何创建和管理Python虚拟环境，以及如何将项目上传到GitHub，帮助读者养成良好的项目管理习惯。
第二十二章：CatBoost算法介绍
介绍了CatBoost这一先进的梯度提升算法，并通过实例展示了如何使用该算法解决分类问题。

适用人群与学习建议

本书适合有一定编程基础、希望快速掌握数据科学实践技能的读者。通过详细的实例和代码讲解，读者可以在较短时间内熟悉数据科学的完整流程，并具备解决实际问题的能力。作者建议读者在学习过程中多动手实践，结合实际数据进行练习，以巩固所学知识。

总之，《Practical Data Science with Jupyter》是一本内容丰富、实用性强的数据科学入门书籍，值得每一位数据科学学习者阅读和参考。