Data Science on the Google Cloud Platform 2nd Edition

作者：	Valliappa Lakshmanan
语言：	英文
出版年份：	2022
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Data Science on the Google Cloud Platform, Second Edition》不是一本逐项讲解 GCP 产品参数的参考书，而是一部围绕真实业务决策展开的端到端数据科学工程教程。作者以“航班延误时是否应取消客户会议”为贯穿案例，把数据采集、清洗、探索、可视化、批处理、流处理、机器学习建模、在线预测和 MLOps 串成一条完整链路，重点训练读者如何用 Google Cloud 的托管与 serverless 服务构建可运行、可扩展、可运维的数据产品。

内容主线

全书的核心逻辑是从一次概率性决策出发，逐步把一次性分析变成可重复提供的服务。作者强调数据科学不只是训练模型，也包括数据语义、隐私、安全、审计、服务延迟、可靠性、模型更新和团队协作。BigQuery、Cloud Storage、Dataflow、Pub/Sub、Dataproc、Spark、Vertex AI Workbench、BigQuery ML、TensorFlow 与 Vertex AI 等工具并非孤立出现，而是服务于同一个航班延误预测系统的演进。

章节内容

第一章建立问题框架：数据分析的目标是支持更好的决策，案例采用航班到达延误的概率分布来判断是否取消会议，并说明为什么云端托管服务适合构建全栈数据科学流程。

第二章到第四章进入数据工程基础，处理 BTS 航班准点数据的获取、摄取、时间修正、数据质量问题、dashboard 反馈，以及用 Pub/Sub 和 Dataflow 支持流式发布与摄取。

第五章强化探索性数据分析，借助 BigQuery 与 Vertex AI Workbench 在大数据集上进行交互式查询、可视化、异常识别和特征理解，体现建模前理解数据的重要性。

第六章到第九章比较多种建模路径：先用 Dataproc 上的 Spark 构建贝叶斯分类器，再用 Spark ML 做 logistic regression，随后展示 BigQuery ML 在表格数据上的低门槛建模，最后进入 TensorFlow 与 Vertex AI 的自定义模型训练和部署。

第十章到第十二章把原型推进到生产化：将 notebook 代码抽取为 Python 模块，使用 Vertex AI 进行训练、部署和监控准备，构造实时机器学习所需的时间窗口特征，并在 2015–2019 更大规模数据上重新训练、评估，讨论持续训练、数据漂移和生产环境的现实成本。

适用读者

本书适合希望理解云上数据科学全流程的数据工程师、数据科学家、分析师、DBA 和具备编程基础的系统工程师。读者最好熟悉 SQL、Python 和基础机器学习概念，并愿意跟随 GitHub 代码在 GCP 项目中实践。若只想查某个 GCP 服务的 API 细节，官方文档更合适；若只想学习算法数学推导，本书也不是最佳入口。

总评

这本书的价值在于把“模型”放回完整工程系统中讨论：数据从哪里来、何时可知、如何避免训练与服务偏差、怎样在云上降低基础设施负担、如何从 notebook 走向可重复训练和部署。它对 GCP 生态依赖较强，但方法论具有迁移性，尤其适合想从单点分析能力升级为云端数据产品交付能力的读者。