Machine Learning Engineering
作者: Andriy Burkov
语言: 英文
出版年份: 2020
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

《Machine Learning Engineering》是一本专注于机器学习工程实践的书籍,旨在填补传统机器学习书籍在工程应用方面的空白。本书不仅涵盖了机器学习的基本概念和理论,更着重于如何将这些理论应用于实际的工程项目中,包括数据收集、特征工程、模型训练、评估、部署和维护等全流程。

第一章:介绍

本书首先介绍了机器学习的基本概念,包括监督学习、无监督学习、半监督学习和强化学习等。定义了数据直接使用和间接使用、原始数据与整洁数据等关键术语,并介绍了机器学习工程的生命周期,强调了在实际应用中何时使用机器学习以及何时不适用。

第二章:项目开始前的准备

在项目启动前,需要对机器学习项目进行优先级排序,评估项目的复杂性和预期成本。书中讨论了如何定义项目的具体目标、如何组建机器学习团队,以及可能导致项目失败的常见原因,如缺乏经验丰富的团队成员、技术不可行性、组织协调问题等。

第三章:数据收集与准备

数据是机器学习的基础,本书详细讨论了数据收集和准备的重要性,包括数据的可访问性、数据质量、数据的时效性和代表性。介绍了如何处理数据中的噪声、偏差、过时样本、异常值和数据泄漏等问题,并提供了数据增强和数据平衡的方法。

第四章:特征工程

特征工程是将原始数据转换为机器学习算法可以处理的特征向量的过程。作者介绍了多种特征工程的方法,如独热编码、词袋模型、主题建模、时间序列特征提取等,并讨论了如何通过特征选择减少特征维度,提高模型性能。

第五章:监督学习模型训练(第一部分)

在模型训练阶段,本书强调了在开始建模之前需要进行的一系列准备工作,如验证数据格式、定义性能指标、选择合适的基线模型。介绍了如何选择学习算法,包括算法的可解释性、内存限制、数据规模和非线性程度等因素。此外,还讨论了如何构建机器学习管道,以及如何通过管道将数据从原始形式转换为训练好的模型。

第六章:监督学习模型训练(第二部分)

深入探讨了深度学习模型的训练策略,包括神经网络的训练技巧、性能指标和损失函数的选择、参数初始化策略、优化算法和学习率衰减。讨论了正则化技术、网络大小搜索和超参数调整。此外,还涵盖了模型评估方法、处理分布偏移和类别不平衡问题的策略。

第七章:模型评估

模型评估是确保模型在实际应用中表现良好的关键步骤。本书介绍了离线和在线评估方法,如A/B测试、多臂老虎机算法等。讨论了如何计算模型性能的统计置信区间,以及如何评估测试集的充分性。还介绍了如何评估模型的鲁棒性和公平性等属性。

第八章:模型部署

部署是将训练好的模型应用于实际系统的过程。本书讨论了静态部署、动态部署、服务器端部署和客户端部署等不同策略。介绍了模型部署的生命周期管理,包括版本控制、自动化部署和监控。还提供了模型部署的最佳实践,如算法效率、缓存技术和开始部署时的简化模型策略。

第九章:模型服务、监控与维护

模型服务阶段需要确保模型在实际运行中的可靠性和稳定性。本书讨论了模型服务的属性,如安全性和正确性、部署的便利性、模型有效性的保证等。介绍了模型监控的重要性,包括监控什么、如何监控和记录日志。还讨论了模型维护的策略,如何时更新模型、如何更新模型。

适用人群

本书适合有一定机器学习基础且希望深入学习工程实践的读者,包括数据分析师、机器学习工程师、软件架构师以及相关领域的学生。对于那些希望在实际项目中应用机器学习技术以解决复杂业务问题的专业人士来说,《Machine Learning Engineering》是一本非常实用的指南。

结语

总的来说,《Machine Learning Engineering》是一本全面而深入的机器学习工程实践指南。它不仅涵盖了机器学习的基础理论,更着重于如何将这些理论应用于实际的工程项目中,是一本值得机器学习工程师和相关领域从业者仔细研读的书籍。

期待您的支持
捐助本站