Large Language Model–Based Solutions

作者：	Shreyas Subramanian
语言：	英文
出版年份：	2024
其他分类：	人工智能
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

《Large Language Model–Based Solutions: How to Deliver Value with Cost-Effective Generative AI Applications》是由Shreyas Subramanian博士撰写的一本专注于如何在成本可控的情况下高效利用大型语言模型（LLMs）以实现生成式人工智能（GenAI）应用价值的书籍。该书由John Wiley & Sons Inc.于2024年出版，旨在为AI从业者、研究人员、工程师、教育工作者、学生以及政策制定者等提供关于如何在实际应用中优化LLMs性能与成本的实用指南。

作者简介

Shreyas Subramanian博士是亚马逊的首席数据科学家，拥有普渡大学航空航天工程博士学位。他在机器学习和人工智能领域拥有丰富的研究经验，并在学术和工业界取得了显著成就。他此前已出版多本关于AI的书籍，并在亚马逊主导了多项与LLMs相关的研究和应用开发工作，尤其在帮助客户以成本高效的方式训练生成式大型语言模型方面做出了突出贡献。

内容概述

本书共分为五章，系统地介绍了LLMs在GenAI应用中的核心概念、优化策略以及实际部署方法。

第一章：引言与LLMs概述 本章首先介绍了LLMs的发展历程及其在自然语言处理（NLP）领域的变革性作用。作者探讨了LLMs与GenAI之间的关系，强调了LLMs在生成连贯、上下文相关的文本方面的强大能力，并提出了GenAI应用的三层架构：基础设施层、模型层和应用层。此外，本章还讨论了LLMs在实际应用中的成本挑战，包括模型训练、推理和存储等方面的高昂费用。

第二章：针对成本优化的调优技术 本章深入探讨了LLMs的调优技术，特别是参数高效微调（PEFT）方法。这些方法通过仅调整模型的一小部分参数，而不是全部参数，显著降低了计算成本和存储需求。作者详细介绍了多种PEFT技术，如适配器（Adapters）、提示词调优（Prompt Tuning）、前缀调优（Prefix Tuning）等，并分析了这些方法在性能和成本方面的权衡。

第三章：推理技术的成本优化 在本章中，作者讨论了在推理阶段优化LLMs成本的多种策略。这些策略包括提示工程（Prompt Engineering）、向量数据库缓存（Caching with Vector Stores）、长文档处理（Chains for Long Documents）以及批量提示（Batch Prompting）等。通过这些技术，可以在保持模型性能的同时，显著降低推理成本。

第四章：模型选择与替代方案 本章聚焦于如何选择合适的LLMs以满足特定应用需求。作者比较了不同规模模型的优缺点，并介绍了如何通过量化（Quantization）和知识蒸馏（Knowledge Distillation）等技术来优化模型性能。此外，本章还探讨了领域特定模型（Domain-Specific Models）的开发和应用，以及如何通过提示工程使通用模型在特定领域表现出色。

第五章：基础设施与部署调优策略 本章讨论了在实际部署LLMs时的硬件利用和调优策略。作者介绍了如何通过批量调整（Batch Tuning）、KV缓存优化（KV Caching）以及PagedAttention等技术来提高模型的吞吐量和性能。此外，本章还涉及了推理加速工具（Inference Acceleration Tools）和监控可观测性（Monitoring and Observability）的重要性。

结论

本书在总结LLMs和GenAI应用的现状和挑战的基础上，为读者提供了一系列实用的优化策略和部署方法。作者强调，通过合理选择和优化LLMs，可以在保持高性能的同时显著降低成本，从而推动GenAI技术在更多领域的广泛应用。无论是对LLMs技术感兴趣的初学者，还是希望在实际项目中优化LLMs性能和成本的专业人士，本书都提供了宝贵的参考和指导。