作者: | Tye Rattenbury, Joseph M. Hellerstein, Jeffrey Heer, Sean Kandel, and Connor Carreras |
语言: | 英文 |
出版年份: | 2017 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
《Principles of Data Wrangling》是由Tye Rattenbury、Joseph M. Hellerstein、Jeffrey Heer、Sean Kandel和Connor Carreras共同撰写的关于数据整理的专业书籍,于2017年出版。本书由O’Reilly Media出版,旨在帮助读者更好地理解和应用数据整理的原理和方法,以从数据中获取更多价值。
在过去几十年中,数据的角色经历了巨大转变。从最初作为会计和决策支持的工具,数据如今已成为驱动创新和价值创造的核心资源。数据整理(Data Wrangling)作为数据处理的关键环节,占据了分析师大部分时间,但其重要性却常被忽视。本书聚焦于数据整理,强调其在现代数据分析中的核心地位,帮助读者掌握高效整理数据的方法,从而为数据分析和决策提供支持。
书中提出了一个数据整理的流程框架,涵盖从原始数据到精炼数据再到生产数据的各个阶段。在原始数据阶段,主要任务是数据的摄入和元数据的创建;精炼数据阶段则侧重于数据的规范化和初步分析;生产数据阶段则关注将数据转化为可直接用于自动化系统的格式。这一框架帮助读者理解数据在不同阶段的处理目标和方法。
数据整理是一个动态的过程,涉及数据的访问、转换、剖析和发布。转换是数据整理的核心,包括结构化、丰富化和清洗等操作,用于调整数据的格式、添加新信息或修复数据质量问题。剖析则用于评估数据的质量和分布,为转换提供指导。此外,书中还讨论了数据抽样和子集划分等策略,以提高数据整理的效率。
本书介绍了多种数据整理工具,包括Excel、SQL和Trifacta Wrangler等。这些工具各有特点,适用于不同类型的数据和项目需求。Excel适合处理小型数据集,操作直观;SQL则适用于大型数据集,功能强大;Trifacta Wrangler则结合了两者的优势,支持大规模数据的可视化操作和自动化处理。
书中通过Facebook的用户增长案例,展示了数据整理在实际业务中的应用。Facebook通过分析用户行为数据,确定了新用户在14天内连接10个朋友这一“魔法阈值”,从而有效提高了用户留存率。这一案例强调了数据整理在发现业务洞察和驱动增长中的关键作用。
本书适合两类读者:一是间接管理数据分析和应用的管理者,二是直接与数据打交道的分析师、工程师、架构师、统计学家和科学家。无论是希望提高团队数据处理效率的管理者,还是需要提升个人数据整理技能的专业人士,都能从本书中获得有益的指导。
《Principles of Data Wrangling》不仅是一本关于数据整理的技术手册,更是一本关于如何通过数据整理实现数据价值最大化的指南。它为读者提供了一个系统的框架和丰富的工具集,帮助读者在数据驱动的时代中更好地应对挑战,实现数据的价值。