Pandas for Everyone: Python Data Analysis 2nd Edition
作者: Daniel Y. Chen
语言: 英文
出版年份: 2022
编程语言: Python
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

《Pandas for Everyone: Python Data Analysis》第二版是一本面向数据科学初学者和Python开发者的实用指南,由Daniel Y. Chen撰写,旨在帮助读者快速掌握使用Pandas库进行数据分析的基本技能。本书属于Pearson Addison-Wesley Data & Analytics系列,该系列专注于数据存储、算法开发和数据可视化的实践知识。

内容概述

本书分为五个部分,涵盖了从Pandas基础到高级数据分析技术的多个主题。

第一部分:Pandas基础

  • 第1章:介绍Pandas的基本概念,包括DataFrame和Series的加载、子集选择以及基本的聚合计算。
  • 第2章:深入探讨Pandas数据结构,包括数据类型转换、布尔子集选择和数据导入导出。
  • 第3章:讲解数据可视化的基础,包括使用Matplotlib、Seaborn和Pandas自带绘图方法。
  • 第4章:讨论“Tidy Data”原则,帮助读者理解如何将数据整理为适合分析的格式。
  • 第5章:介绍如何使用.apply()方法对数据应用自定义函数,为复杂的数据处理打下基础。

第二部分:数据处理

  • 第6章:探讨如何通过连接、合并和规范化操作来组装数据集。
  • 第7章:讨论数据规范化,帮助读者理解如何将数据拆分为多个表以减少冗余。
  • 第8章:详细讲解.groupby()操作,包括聚合、转换和过滤数据的方法。

第三部分:数据类型

  • 第9章:深入探讨缺失数据的处理,包括查找、计数和处理缺失值。
  • 第10章:讨论数据类型转换,包括字符串、日期时间和其他数据类型的处理。
  • 第11章:专注于字符串和文本数据的处理,包括正则表达式的使用。
  • 第12章:深入日期和时间数据的处理,包括日期范围、时区和时间序列分析。

第四部分:数据建模

  • 第13章:介绍线性回归模型的拟合,包括简单线性回归和多元线性回归。
  • 第14章:探讨广义线性模型,如逻辑回归和泊松回归。
  • 第15章:介绍生存分析的基本概念,包括Kaplan-Meier曲线和Cox比例风险模型。
  • 第16章:讲解模型诊断方法,如残差分析和交叉验证。
  • 第17章:介绍正则化技术,如LASSO、岭回归和弹性网。
  • 第18章:探讨聚类分析,包括k-means和层次聚类。

第五部分:总结

  • 第19章:讨论Python数据科学生态系统,包括性能优化、Dask、Polars等工具。
  • 第20章:提供学习资源和社区参与的建议,帮助读者继续提升数据科学技能。

适用人群

本书适合以下读者:

  • 数据科学初学者,希望快速掌握Pandas和Python数据分析的基础知识。
  • Python开发者,希望将数据分析技能应用于实际项目。
  • 数据分析师,需要提升数据处理和可视化的效率。

特点

  • 实践导向:通过实际数据集和代码示例,帮助读者快速上手。
  • 易于理解:语言简洁明了,适合初学者阅读。
  • 全面覆盖:从基础到高级,涵盖数据分析的各个方面。

《Pandas for Everyone: Python Data Analysis》第二版是一本全面且实用的Pandas教程,无论是新手还是有一定基础的读者,都能从中获得宝贵的指导和启发。

期待您的支持
捐助本站