Fundamentals of Data Engineering
作者: Joe Reis and Matt Housley
语言: 英文
出版年份: 2022
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Fundamentals of Data Engineering》是一本面向现代数据工程的基础框架书,而不是某个工具、云厂商或开源组件的操作手册。Joe Reis 和 Matt Housley 把重点放在“数据工程生命周期”上:数据如何产生、存储、摄取、转换,并最终服务于分析、机器学习和业务系统。它适合用来建立判断力,帮助读者在快速变化的数据工具生态中理解哪些原则相对稳定。

内容主线

全书的主线是把数据工程从“会用一堆技术”提升为“能设计并维护可靠数据系统”。作者先界定数据工程与数据科学、软件工程、数据架构之间的边界,再用生命周期串联源系统、存储、摄取、查询建模、服务交付等环节,并反复强调安全、数据管理、DataOps、架构、编排和软件工程这些贯穿性能力。书中采取 cloud-first 视角,但多数概念也可迁移到非云环境。

章节内容

第一章界定数据工程的角色、历史演进、数据成熟度,以及数据工程师在组织中与数据科学家、分析师、ML 工程师、软件工程师等角色的协作关系。

第二章提出数据工程生命周期,说明 generation、storage、ingestion、transformation、serving 五个阶段,以及安全、数据管理、DataOps、数据架构、编排和软件工程等 undercurrents 如何支撑全流程。

第三章第四章讨论好的数据架构和技术选型:架构应服务业务目标,工具只是实现手段;选型要考虑团队能力、上市速度、互操作性、成本、云/本地部署、build versus buy、模块化与 serverless 等权衡。

第五章第九章是主体部分,分别展开源系统、存储、摄取、查询建模与转换、数据服务。内容覆盖 OLTP/OLAP、文件与 API、批处理与流处理、SQL、数据建模、数据产品、BI、ML 数据供给和 reverse ETL,强调从下游用例反推数据管道设计。

第十章关注安全与隐私,把最小权限、备份、云端共享责任、敏感数据处理等视为日常工程习惯。第十一章展望数据工程未来:工具会更易用,复杂度会下降,但数据工程师会向更高层的生命周期管理、治理、互操作和数据产品设计演进。

适用读者

本书适合中高级软件工程师、数据科学家、分析师、数据团队负责人,以及已有局部经验但缺少全局视角的数据工程师。读者最好熟悉企业数据系统、SQL、Python 或其他编程语言,并对云服务有基本经验。它不适合作为零基础编程教材,也不适合想快速学习某个具体平台命令的人。

总评

这本书的价值在于把数据工程讲成一套长期可复用的思维框架。它不追逐工具热度,而是帮助读者理解系统设计、数据质量、成本、可信度和组织协作之间的取舍。对于想从“搭管道”走向“设计可靠数据平台”的读者,它比单一技术教程更值得投入时间。

期待您的支持
捐助本站