Practical Python Data Wrangling and Data Quality
作者: Susan E. McGregor
语言: 英文
出版年份: 2021
编程语言: Python
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

书籍简介:Practical Python Data Wrangling and Data Quality

书籍定位

《Practical Python Data Wrangling and Data Quality》是一本面向初学者的Python数据整理和数据质量实践指南,由Susan E. McGregor编写,2022年12月由O'Reilly Media出版。本书专注于教授如何使用Python 3.8+版本读取、写入和转换各种数据源的数据,特别强调数据质量评估和提升的实际方法。与传统的技术书籍不同,本书特别关注那些对数据或编程感到畏惧的初学者,旨在帮助他们克服心理障碍,掌握数据整理的核心技能。本书的所有练习都在价格低于500美元的Chromebook上设计和测试,确保技术的可及性。

核心内容

本书共7个章节,系统性地介绍了数据整理的全过程,从数据获取到数据可视化,特别强调数据质量的重要性。

第1章:Introduction to Data Wrangling and Data Quality。本章作为全书的基础,详细阐述了数据整理(Data Wrangling)和数据质量(Data Quality)的基本概念。数据整理被定义为将"原始"或"发现"的数据转化为能够产生洞察和意义的数据的过程。详细介绍了数据整理的六个核心步骤:1)定位或收集数据,2)审查数据,3)清洗、标准化、转换和/或增强数据,4)分析数据,5)可视化数据,6)沟通数据。重点分析了数据质量的两个关键维度:数据完整性(Data Integrity)和数据适用性(Data Fit)。数据完整性关注数据的完整性、原子性和良好注释等特性;数据适用性则关注数据是否适合特定的问题或目的。本章还通过COMPAS风险评估系统的案例,展示了数据适用性问题可能导致的严重社会危害。

第2章:Python Basics for Data Wrangling。本章介绍了数据整理所需的Python基础知识,特别关注那些对初学者友好的概念和工具。详细讲解了Python编程语言的优势:多功能性(Versatility)、可访问性(Accessibility)、可读性(Readability)和社区支持(Community)。系统性地介绍了Python的基本数据类型:字符串(Strings)、列表(Lists)、字典(Dictionaries)、元组(Tuples)和集合(Sets)。深入探讨了条件语句(if/elif/else)和循环结构(for/while循环)在数据处理中的应用。本章还详细介绍了Python开发环境的两种主要形式:笔记本(Notebooks)和独立文件(Standalone Files),以及在线和本地工作环境的设置方法。

第3章:Data Quality Fundamentals。本章深入探讨了数据质量的基础原理,提供了评估和改进数据质量的具体方法。详细介绍了数据完整性的评估标准:完整性(Completeness)、一致性(Consistency)、准确性(Accuracy)、时效性(Timeliness)和唯一性(Uniqueness)。系统性地讲解了数据质量问题的常见类型:缺失值(Missing Values)、异常值(Outliers)、重复记录(Duplicate Records)、格式不一致(Format Inconsistencies)和数据漂移(Data Drift)。重点分析了数据适用性的评估框架:相关性(Relevance)、代表性(Representativeness)、时效性(Timeliness)和充分性(Adequacy)。本章还提供了实际的数据质量检查清单和评估工具的使用方法。

第4章:Working with Different Data Formats。本章专注于处理不同数据格式的技术,展示了Python在处理各种数据源方面的强大能力。详细介绍了结构化数据格式的处理:CSV文件、Excel文件(xls和xlsx)、JSON数据、XML数据的读取和写入方法。系统性地讲解了半结构化数据格式的处理:HTML网页抓取、API数据获取、日志文件解析等技术。深入探讨了非结构化数据格式的处理:纯文本文件、PDF文档、图像文件中的文本提取方法。本章还介绍了数据格式转换的最佳实践,包括编码问题处理、字符集转换、数据规范化等技术。

第5章:Data Cleaning and Transformation。本章专注于数据清洗和转换的核心技术,提供了处理脏数据的实际解决方案。详细介绍了数据清洗的基本步骤:识别问题数据、制定清洗策略、实施清洗操作、验证清洗结果。系统性地讲解了常见的数据清洗技术:缺失值处理(删除、插补、标记)、异常值检测和处理、重复数据识别和删除、数据格式标准化。深入探讨了数据转换的高级技术:数据类型转换、数据归一化和标准化、特征工程、数据聚合和分组。本章还提供了实际的数据清洗工作流程示例,展示了如何系统性地改进数据质量。

第6章:Data Analysis and Exploration。本章介绍了数据分析和探索的基本方法,展示了如何使用Python从数据中提取洞察。详细介绍了描述性统计分析技术:集中趋势度量(均值、中位数、众数)、离散程度度量(标准差、方差、四分位距)、分布形状度量(偏度、峰度)。系统性地讲解了探索性数据分析(EDA)方法:数据可视化探索、相关性分析、模式识别、假设生成。深入探讨了数据分组和聚合技术:分组操作(groupby)、数据透视表(pivot tables)、交叉表(crosstab)的应用。本章还介绍了基本的统计推断方法:假设检验、置信区间、效应量计算。

第7章:Data Visualization and Communication。本章专注于数据可视化和沟通技术,展示了如何有效地传达数据洞察。详细介绍了数据可视化的基本原则:准确性、清晰性、简洁性、美观性。系统性地讲解了Python中主要的数据可视化库:Matplotlib基础图表、Seaborn统计图形、Plotly交互式图表、Pandas内置绘图功能。深入探讨了不同类型数据的可视化选择:分类数据的条形图和饼图、数值数据的直方图和箱线图、时间序列数据的折线图、地理数据的空间地图。本章还介绍了数据沟通的最佳实践:叙事结构、受众分析、可视化设计、报告撰写。

本书的一个显著特点是其极强的可访问性。作者特别关注那些认为自己"不擅长数学"或认为编程"太难"的读者,通过简单易懂的语言和循序渐进的方法,帮助读者建立信心。书中所有练习都设计为可以在低成本的Chromebook上运行,甚至可以在公共图书馆的共享计算机上使用免费在线工具完成。

适用读者

  1. 数据整理的完全初学者:没有任何编程或数据经验,但希望学习数据技能的读者
  2. 非技术背景的专业人士:需要理解和使用数据,但缺乏技术背景的业务人员、记者、教育工作者等
  3. 电子表格用户:已经使用Excel或其他电子表格工具,但希望扩展数据能力的使用者
  4. 前端开发人员:具有JavaScript或PHP经验,希望学习Python进行数据处理的开发者
  5. 学生和教育工作者:学习数据科学或相关领域的学生,以及教授数据技能的教师
  6. 社会工作者和社区组织者:希望利用数据解决社会问题和社区需求的专业人员

阅读建议

建议学习路径

  1. 完全按照章节顺序学习,因为每个章节都建立在前面章节的基础上
  2. 对于完全没有编程经验的读者,建议仔细阅读第1-2章,建立Python基础
  3. 对于已经有一定Python经验但想学习数据整理的读者,可以从第3章开始
  4. 对于希望快速应用数据技能的读者,可以重点学习第4-5章(数据处理)和第7章(数据可视化)

实践建议

  1. 强烈建议访问本书的GitHub仓库(github.com/PracticalPythonDataWranglingAndQuality)获取代码示例
  2. 建议从自己感兴趣的问题开始数据整理项目,保持学习的动力
  3. 可以尝试本书提供的两种代码格式:笔记本(Notebooks)和独立文件(Standalone Files),找到适合自己的工作方式
  4. 建议在遇到困难时参考Python社区的资源,如Stack Overflow等在线平台

技术要求

  1. 只需要基本的计算机使用技能:下载文件、打开程序、复制粘贴等
  2. 不需要昂贵的计算机设备,可以在Chromebook或公共计算机上完成所有练习
  3. 需要稳定的互联网连接(用于在线工具)或能够安装Python的本地设备
  4. 建议使用Python 3.9或更高版本

本书是学习数据整理和Python编程的理想起点,特别适合那些对技术感到畏惧但希望掌握数据技能的读者。通过本书的学习,读者将能够独立完成从数据收集到洞察生成的全过程,为更高级的数据科学和机器学习学习奠定坚实基础。

期待您的支持
捐助本站