Practical Python Data Wrangling and Data Quality

作者：	Susan E. McGregor
语言：	英文
出版年份：	2021
编程语言：	Python
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

书籍简介：Practical Python Data Wrangling and Data Quality

书籍定位

《Practical Python Data Wrangling and Data Quality》是一本面向初学者的Python数据整理和数据质量实践指南，由Susan E. McGregor编写，2022年12月由O'Reilly Media出版。本书专注于教授如何使用Python 3.8+版本读取、写入和转换各种数据源的数据，特别强调数据质量评估和提升的实际方法。与传统的技术书籍不同，本书特别关注那些对数据或编程感到畏惧的初学者，旨在帮助他们克服心理障碍，掌握数据整理的核心技能。本书的所有练习都在价格低于500美元的Chromebook上设计和测试，确保技术的可及性。

核心内容

本书共7个章节，系统性地介绍了数据整理的全过程，从数据获取到数据可视化，特别强调数据质量的重要性。

第1章：Introduction to Data Wrangling and Data Quality。本章作为全书的基础，详细阐述了数据整理（Data Wrangling）和数据质量（Data Quality）的基本概念。数据整理被定义为将"原始"或"发现"的数据转化为能够产生洞察和意义的数据的过程。详细介绍了数据整理的六个核心步骤：1)定位或收集数据，2)审查数据，3)清洗、标准化、转换和/或增强数据，4)分析数据，5)可视化数据，6)沟通数据。重点分析了数据质量的两个关键维度：数据完整性（Data Integrity）和数据适用性（Data Fit）。数据完整性关注数据的完整性、原子性和良好注释等特性；数据适用性则关注数据是否适合特定的问题或目的。本章还通过COMPAS风险评估系统的案例，展示了数据适用性问题可能导致的严重社会危害。

第2章：Python Basics for Data Wrangling。本章介绍了数据整理所需的Python基础知识，特别关注那些对初学者友好的概念和工具。详细讲解了Python编程语言的优势：多功能性（Versatility）、可访问性（Accessibility）、可读性（Readability）和社区支持（Community）。系统性地介绍了Python的基本数据类型：字符串（Strings）、列表（Lists）、字典（Dictionaries）、元组（Tuples）和集合（Sets）。深入探讨了条件语句（if/elif/else）和循环结构（for/while循环）在数据处理中的应用。本章还详细介绍了Python开发环境的两种主要形式：笔记本（Notebooks）和独立文件（Standalone Files），以及在线和本地工作环境的设置方法。

第3章：Data Quality Fundamentals。本章深入探讨了数据质量的基础原理，提供了评估和改进数据质量的具体方法。详细介绍了数据完整性的评估标准：完整性（Completeness）、一致性（Consistency）、准确性（Accuracy）、时效性（Timeliness）和唯一性（Uniqueness）。系统性地讲解了数据质量问题的常见类型：缺失值（Missing Values）、异常值（Outliers）、重复记录（Duplicate Records）、格式不一致（Format Inconsistencies）和数据漂移（Data Drift）。重点分析了数据适用性的评估框架：相关性（Relevance）、代表性（Representativeness）、时效性（Timeliness）和充分性（Adequacy）。本章还提供了实际的数据质量检查清单和评估工具的使用方法。

第4章：Working with Different Data Formats。本章专注于处理不同数据格式的技术，展示了Python在处理各种数据源方面的强大能力。详细介绍了结构化数据格式的处理：CSV文件、Excel文件（xls和xlsx）、JSON数据、XML数据的读取和写入方法。系统性地讲解了半结构化数据格式的处理：HTML网页抓取、API数据获取、日志文件解析等技术。深入探讨了非结构化数据格式的处理：纯文本文件、PDF文档、图像文件中的文本提取方法。本章还介绍了数据格式转换的最佳实践，包括编码问题处理、字符集转换、数据规范化等技术。

第5章：Data Cleaning and Transformation。本章专注于数据清洗和转换的核心技术，提供了处理脏数据的实际解决方案。详细介绍了数据清洗的基本步骤：识别问题数据、制定清洗策略、实施清洗操作、验证清洗结果。系统性地讲解了常见的数据清洗技术：缺失值处理（删除、插补、标记）、异常值检测和处理、重复数据识别和删除、数据格式标准化。深入探讨了数据转换的高级技术：数据类型转换、数据归一化和标准化、特征工程、数据聚合和分组。本章还提供了实际的数据清洗工作流程示例，展示了如何系统性地改进数据质量。

第6章：Data Analysis and Exploration。本章介绍了数据分析和探索的基本方法，展示了如何使用Python从数据中提取洞察。详细介绍了描述性统计分析技术：集中趋势度量（均值、中位数、众数）、离散程度度量（标准差、方差、四分位距）、分布形状度量（偏度、峰度）。系统性地讲解了探索性数据分析（EDA）方法：数据可视化探索、相关性分析、模式识别、假设生成。深入探讨了数据分组和聚合技术：分组操作（groupby）、数据透视表（pivot tables）、交叉表（crosstab）的应用。本章还介绍了基本的统计推断方法：假设检验、置信区间、效应量计算。

第7章：Data Visualization and Communication。本章专注于数据可视化和沟通技术，展示了如何有效地传达数据洞察。详细介绍了数据可视化的基本原则：准确性、清晰性、简洁性、美观性。系统性地讲解了Python中主要的数据可视化库：Matplotlib基础图表、Seaborn统计图形、Plotly交互式图表、Pandas内置绘图功能。深入探讨了不同类型数据的可视化选择：分类数据的条形图和饼图、数值数据的直方图和箱线图、时间序列数据的折线图、地理数据的空间地图。本章还介绍了数据沟通的最佳实践：叙事结构、受众分析、可视化设计、报告撰写。

本书的一个显著特点是其极强的可访问性。作者特别关注那些认为自己"不擅长数学"或认为编程"太难"的读者，通过简单易懂的语言和循序渐进的方法，帮助读者建立信心。书中所有练习都设计为可以在低成本的Chromebook上运行，甚至可以在公共图书馆的共享计算机上使用免费在线工具完成。

适用读者

数据整理的完全初学者：没有任何编程或数据经验，但希望学习数据技能的读者
非技术背景的专业人士：需要理解和使用数据，但缺乏技术背景的业务人员、记者、教育工作者等
电子表格用户：已经使用Excel或其他电子表格工具，但希望扩展数据能力的使用者
前端开发人员：具有JavaScript或PHP经验，希望学习Python进行数据处理的开发者
学生和教育工作者：学习数据科学或相关领域的学生，以及教授数据技能的教师
社会工作者和社区组织者：希望利用数据解决社会问题和社区需求的专业人员

阅读建议

建议学习路径：

完全按照章节顺序学习，因为每个章节都建立在前面章节的基础上
对于完全没有编程经验的读者，建议仔细阅读第1-2章，建立Python基础
对于已经有一定Python经验但想学习数据整理的读者，可以从第3章开始
对于希望快速应用数据技能的读者，可以重点学习第4-5章（数据处理）和第7章（数据可视化）

实践建议：

强烈建议访问本书的GitHub仓库（github.com/PracticalPythonDataWranglingAndQuality）获取代码示例
建议从自己感兴趣的问题开始数据整理项目，保持学习的动力
可以尝试本书提供的两种代码格式：笔记本（Notebooks）和独立文件（Standalone Files），找到适合自己的工作方式
建议在遇到困难时参考Python社区的资源，如Stack Overflow等在线平台

技术要求：

只需要基本的计算机使用技能：下载文件、打开程序、复制粘贴等
不需要昂贵的计算机设备，可以在Chromebook或公共计算机上完成所有练习
需要稳定的互联网连接（用于在线工具）或能够安装Python的本地设备
建议使用Python 3.9或更高版本

本书是学习数据整理和Python编程的理想起点，特别适合那些对技术感到畏惧但希望掌握数据技能的读者。通过本书的学习，读者将能够独立完成从数据收集到洞察生成的全过程，为更高级的数据科学和机器学习学习奠定坚实基础。