Data Science on the Google Cloud Platform 2nd Edition
作者: Valliappa Lakshmanan
语言: 英文
出版年份: 2022
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Data Science on the Google Cloud Platform, Second Edition》不是一本逐项讲解 GCP 产品参数的参考书,而是一部围绕真实业务决策展开的端到端数据科学工程教程。作者以“航班延误时是否应取消客户会议”为贯穿案例,把数据采集、清洗、探索、可视化、批处理、流处理、机器学习建模、在线预测和 MLOps 串成一条完整链路,重点训练读者如何用 Google Cloud 的托管与 serverless 服务构建可运行、可扩展、可运维的数据产品。

内容主线

全书的核心逻辑是从一次概率性决策出发,逐步把一次性分析变成可重复提供的服务。作者强调数据科学不只是训练模型,也包括数据语义、隐私、安全、审计、服务延迟、可靠性、模型更新和团队协作。BigQuery、Cloud Storage、Dataflow、Pub/Sub、Dataproc、Spark、Vertex AI Workbench、BigQuery ML、TensorFlow 与 Vertex AI 等工具并非孤立出现,而是服务于同一个航班延误预测系统的演进。

章节内容

第一章建立问题框架:数据分析的目标是支持更好的决策,案例采用航班到达延误的概率分布来判断是否取消会议,并说明为什么云端托管服务适合构建全栈数据科学流程。

第二章第四章进入数据工程基础,处理 BTS 航班准点数据的获取、摄取、时间修正、数据质量问题、dashboard 反馈,以及用 Pub/Sub 和 Dataflow 支持流式发布与摄取。

第五章强化探索性数据分析,借助 BigQuery 与 Vertex AI Workbench 在大数据集上进行交互式查询、可视化、异常识别和特征理解,体现建模前理解数据的重要性。

第六章第九章比较多种建模路径:先用 Dataproc 上的 Spark 构建贝叶斯分类器,再用 Spark ML 做 logistic regression,随后展示 BigQuery ML 在表格数据上的低门槛建模,最后进入 TensorFlow 与 Vertex AI 的自定义模型训练和部署。

第十章第十二章把原型推进到生产化:将 notebook 代码抽取为 Python 模块,使用 Vertex AI 进行训练、部署和监控准备,构造实时机器学习所需的时间窗口特征,并在 2015–2019 更大规模数据上重新训练、评估,讨论持续训练、数据漂移和生产环境的现实成本。

适用读者

本书适合希望理解云上数据科学全流程的数据工程师、数据科学家、分析师、DBA 和具备编程基础的系统工程师。读者最好熟悉 SQL、Python 和基础机器学习概念,并愿意跟随 GitHub 代码在 GCP 项目中实践。若只想查某个 GCP 服务的 API 细节,官方文档更合适;若只想学习算法数学推导,本书也不是最佳入口。

总评

这本书的价值在于把“模型”放回完整工程系统中讨论:数据从哪里来、何时可知、如何避免训练与服务偏差、怎样在云上降低基础设施负担、如何从 notebook 走向可重复训练和部署。它对 GCP 生态依赖较强,但方法论具有迁移性,尤其适合想从单点分析能力升级为云端数据产品交付能力的读者。

期待您的支持
捐助本站