Designing Machine Learning Systems

作者：	Chip Huyen
语言：	英文
出版年份：	2022
其他分类：	人工智能
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

《Designing Machine Learning Systems》是一本面向生产环境的机器学习系统设计书，而不是算法入门或某个 MLOps 工具教程。Chip Huyen 关注的是：当模型从实验室走向业务现场后，数据、目标、延迟、监控、团队协作和责任边界如何共同决定系统成败。全书以“可靠、可扩展、可维护、可适应”为核心要求，强调每个设计选择都要放回整体系统和业务目标中判断。

内容主线

本书的推进路径接近真实 ML 项目生命周期：先判断问题是否适合用 ML，澄清业务目标与模型目标，再进入数据工程、训练数据、特征工程和模型开发；随后转向部署、预测服务、监控、持续学习与生产测试，最后讨论基础设施、平台化和 Responsible AI。它的价值不在于给出单一标准答案，而在于训练读者理解取舍：批处理还是在线预测，云端还是边缘，复杂模型还是可解释和低延迟方案，手工标注还是弱监督与主动学习。

章节内容

第一章介绍 ML 系统与 MLOps 的关系，说明算法只是生产系统的一部分，并比较研究环境、传统软件和生产 ML 的差异。第二章从业务目标、系统需求和问题 framing 入手，建立迭代式系统设计框架。第三章补齐数据工程基础，包括数据格式、数据模型、数据库、服务间数据传递以及批处理与流处理。

第四章到第六章覆盖部署前阶段：如何采样和构造训练数据，处理自然标签、人工标注、弱监督、类别不平衡与数据增强；如何做特征工程、避免数据泄漏、管理 lineage；以及如何选择模型、做实验追踪、分布式训练和离线评估。第七章到第九章进入生产阶段，讨论 batch prediction、online prediction、边缘与云端推理、模型失效、数据分布漂移、监控、持续学习、重训练频率和 test in production。第十章梳理 MLOps 基础设施，从存储计算、资源管理到 ML platform 与开发环境。第十一章把视角拉回人，讨论用户体验、一致性与准确率取舍、团队结构和 Responsible AI。

适用读者

适合已有机器学习基本概念、希望把模型真正落地的 ML engineer、data scientist、data engineer、平台工程师和技术管理者。它假设读者理解常见模型、指标和统计概念，但不要求深入掌握每种算法细节。不适合完全零基础学习机器学习理论，也不适合只想照着代码部署某个框架的读者。

总评

这本书最强的地方是系统感：它把数据、模型、服务、监控、基础设施和组织协作放在同一张图里讨论，能帮助读者避免“离线指标很好就等于项目成功”的误判。对于准备从建模走向 ML engineering、MLOps 或技术决策的人，它提供的是长期有效的设计框架，而不是很快过时的工具清单。