LLM Engineer’s Handbook

作者：	Paul Iusztin and Maxime Labonne
语言：	英文
出版年份：	2024
其他分类：	人工智能
下载链接：	PDF 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《LLM Engineer’s Handbook》是一本由Paul Iusztin和Maxime Labonne共同撰写的关于大型语言模型（LLM）工程实践的权威指南。该书由Packt Publishing于2024年10月出版，旨在帮助读者掌握从概念到生产部署的LLM工程全流程。

作者背景

Paul Iusztin和Maxime Labonne都是在GenAI、计算机视觉和MLOps领域拥有丰富经验的资深工程师。他们通过本书分享了在构建和部署LLM系统方面的实战经验，以及如何将LLM技术应用于解决实际问题。

核心内容

本书围绕构建一个名为“LLM Twin”的项目展开，这是一个能够模仿个人写作风格和个性的AI模型。通过这个项目，作者详细介绍了LLM工程的关键环节，包括数据工程、模型微调、推理优化、RAG（Retrieval-Augmented Generation）管道开发以及MLOps实践。

数据工程

书中首先介绍了如何设计和实现数据收集管道，从LinkedIn、Medium、Substack和GitHub等平台爬取数据，并将其存储在MongoDB数据仓库中。作者详细讲解了如何使用ZenML框架来管理和调度数据管道，并强调了数据清洗和标准化的重要性。

模型微调

在模型微调方面，书中深入探讨了监督式微调（SFT）的技巧，包括如何创建高质量的指令数据集、选择合适的微调技术（如全微调、LoRA和QLoRA）以及优化训练参数。作者还介绍了如何通过指令数据集格式和聊天模板来调整模型的对话能力。

RAG管道开发

RAG管道是本书的重点之一。作者详细介绍了RAG的基本原理，包括如何将外部数据注入LLM以增强其生成能力，并避免幻觉（hallucination）和过时信息的问题。书中还探讨了如何设计和实现RAG特征管道，包括文档的分块、嵌入和向量数据库的使用。

推理优化

为了提高LLM在实际应用中的效率，书中介绍了多种推理优化策略，如KV缓存、连续批处理、推测性解码以及模型并行化。此外，还讨论了模型量化技术，包括GGUF和GPTQ等。

MLOps实践

书中强调了MLOps在LLM工程中的重要性，介绍了如何将LLM Twin项目部署到云平台（如AWS SageMaker），并使用ZenML、Comet ML等工具进行实验跟踪和模型监控。作者还探讨了CI/CD/CT（持续集成、持续部署、持续测试）流程的构建，以及如何通过Prompt Monitoring来监控LLM的推理过程。

适用人群

本书适合对LLM工程感兴趣的各类技术专业人士，包括软件工程师、机器学习工程师、数据科学家以及AI解决方案架构师。无论是希望转型进入AI领域的工程师，还是已经在机器学习领域工作并希望深入LLM系统的专业人士，都能从本书中获得宝贵的指导。

总结

《LLM Engineer’s Handbook》是一本全面且实用的LLM工程指南。它不仅涵盖了LLM工程的理论基础，还提供了丰富的实践案例和代码示例。通过本书，读者可以系统地学习如何构建、优化和部署LLM应用，掌握MLOps的最佳实践，并在AI领域取得成功。