搬书匠
首页
Machine Learning Production Systems
作者:
Robert Crowe, Hannes Hapke, Emily Caveness, and Di Zhu
语言:
英文
出版年份:
2024
其他分类:
人工智能
下载链接:
PDF
城通网盘
EPUB
城通网盘
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。
书籍摘要
1. 引言
定义
:机器学习生产系统是指在生产环境中部署、管理和扩展机器学习模型所需的基础设施和流程。
重要性
:这些系统确保模型可靠、高效且可扩展,使组织能够在现实场景中从机器学习中获取价值。
2. 数据管理
数据收集
:收集相关和高质量数据的策略。
数据预处理
:用于清理、转换和准备数据的技术。
数据存储
:存储和管理大型数据集的解决方案,包括数据湖和数据仓库。
3. 模型开发
模型训练
:训练机器学习模型的过程,包括选择合适的算法和超参数。
模型评估
:评估模型性能的方法,如交叉验证和准确率、精确率、召回率等指标。
模型优化
:提高模型性能的技术,包括特征工程和超参数调优。
4. 部署
部署策略
:将模型部署到生产环境的方法,如批处理部署、金丝雀部署和蓝绿部署。
基础设施
:用于部署机器学习模型和大型语言模型(LLMs)的工具和平台。
管理和交付
:确保模型在生产环境中稳定运行的管理和交付流程。
监控和日志记录
:监控模型性能和记录日志的方法,以便及时发现和解决问题。
5. 监控与维护
性能监控
:持续监控模型性能,确保其在生产环境中保持高效运行。
故障排除
:识别和解决模型在生产环境中出现的问题。
模型更新
:根据新的数据和需求更新模型的流程。
6. 基础设施与工具
计算资源
:支持机器学习模型训练和推理的计算资源,如GPU和TPU。
存储资源
:用于存储数据和模型的存储资源,如分布式文件系统和对象存储。
工具和框架
:用于机器学习开发和部署的工具和框架,如TensorFlow、PyTorch和MLflow。
7. 案例研究
实际应用
:展示机器学习生产系统在不同行业中的实际应用案例。
经验教训
:从实际应用中总结的经验教训和最佳实践。
8. 挑战与最佳实践
挑战
:在机器学习生产系统中常见的挑战,如数据质量、模型性能和可扩展性。
最佳实践
:应对这些挑战的最佳实践,包括自动化、标准化和持续改进。
期待您的支持