LangChain and LlamaIndex Projects Lab Book: Hooking Large Language Models Up to the Real World
作者: Mark Watson
语言: 英文
出版年份: 2024
编程语言: Python
其他分类: 人工智能
下载链接:
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。

书籍摘要

一、写作背景与作者

  • 作者 Mark Watson 拥有 40 余年人工智能研发经验,曾在 Google、Capital One 等公司任职,出版过 20 余本技术书籍,持有 50 多项美国专利。
  • 2024 年 2 月新版 Lab Book 聚焦"把大模型(LLM)接入真实世界"的实践,覆盖 GPT-4、ChatGPT、Hugging Face 以及本地模型 Llama2、Mistral 等。
  • 写作初衷:帮助个人开发者与初创团队用 LangChain & LlamaIndex 快速搭建实用系统,与大厂云 LLM 服务形成互补,同时保留对数据和模型的完全控制。

二、全书结构速览(12 章 + 附录)

  1. 大模型生态鸟瞰

    • 梳理 Transformer、BERT → GPT 演进,指出「自注意力+预训练」带来的通用语言理解与生成能力。
    • 对比 Google、Microsoft「云 API + 生态锁定」与 Hugging Face「开源托管 + 自托管」两条路线,强调个人开发者应善用两边优势。
  2. LangChain 入门

    • 安装、环境变量、PromptTemplate、Chain、Memory、Embedding 等核心概念。
    • 通过「补写故事」「城市信息查询」「目录文档语义检索」三例演示一次 LLM 调用与多次链式调用的差异。
  3. LlamaIndex(原 GPT-Index)速览

    • 数据连接器 → 向量化索引 → 查询引擎三步法。
    • 示例:本地文本文件夹一次性构建索引并持久化;抓取网页列表后实时问答;展示 GPTListIndex、GPTVectorStoreIndex 在不同规模文本下的取舍。
  4. 检索增强生成(RAG)

    • 系统图:用户查询 → Embedding 召回 → 拼接上下文 → LLM 生成。
    • 给出 Google Drive、Web 页面、SQLite 三种数据源的最佳实践,为后续章节奠定模式。
  5. 知识图谱实战

    • Google Knowledge Graph API:人物、机构、地点实体查询并封装为可复用工具。
    • DBPedia / Wikidata:SPARQL 端点演示,如何把 RDF 三元组导入 LlamaIndex 做问答。
    • 结合 LangChain Agent,实现「自然语言 → 自动 SPARQL → 返回可读答案」的完整闭环。
  6. Google Workspace 自动化

    • PyDrive 鉴权流程、批量抓取 txt/pdf、生成向量索引,打造「个人云端资料问答助手」。
    • Zapier Natural Language Actions:一句人话即可发 Gmail、查日历;示范如何把 Zapier 工具链注册到 LangChain Agent。
  7. 结构化数据自然语言查询

    • 基于 SQLAlchemy 的 SQLDatabaseChain,让 LLM 自动生成 SQL 并解释结果。
    • 以 SQLite 样例库为靶,演示多表关联、聚合、排序等复杂提问的零代码实现。
  8. Hugging Face 开源模型

    • 两种方式:①Hub 免费推理端点;②本机 transformers 流水线。
    • 提供 CustomLLM 类模板,把 facebook/opt-iml-1.3b、Llama2-13B-Orca 等模型嵌入 LlamaIndex;对比 CPU、M1 GPU、Google Colab 的推理耗时。
  9. Llama.cpp & Ollama 本地部署

    • 详解 llama.cpp 编译、GGUF 格式下载、LangChain LlamaCpp 类参数调优。
    • Ollama 一键启服务,REST + 本地嵌入,展示 Mistral 7B 在 16G 内存 Mac 上的 RAG 效果。
    • 作者观点:本地运行成本趋低,「可控 + 隐私」优势让个人实验和小规模生产成为可能。
  10. 生成式应用:食谱写作

    • 将作者个人网站 CookingSpace 的 JSON 食谱批量转文本 → Embedding → 向量检索。
    • 用「根据给定食材创作新菜谱」场景展示「私域数据 + LLM」如何生成风格一致、步骤完整的新内容。
  11. LangChain Agent 深度实践

    • 概述 Tools、ReAct(Reason+Act)论文思想:思考痕迹 + 行动循环 → 降低幻觉。
    • 手把手编写「DBPedia 实体问答」自定义 Tool:spaCy 识别实体 → SPARQL 模板 → 返回摘要。
    • 演示多工具串接,让 Agent 在「查维基、做计算、发邮件」之间自主规划步骤。
  12. 进阶工具箱

    • EmbedChain:一条命令完成「目录加载 → 分块 → 向量化 → 问答」。
    • Kor:用 Pydantic 模型定义字段,即可从非结构化文本抽取 JSON,如日期、金额、人名等。
    • 作者提醒:库更新频繁,鼓励读者 fork 官方示例仓库并跟踪最新版本。
  13. 写在最后

    • LLM + LangChain/LlamaIndex 让「过去需要数月、数百行代码」的 NLP 应用变成「数小时、数十行」的脚本。
    • 作者下一步计划:基于 CloudKit JS 开发跨 Apple 生态的「离线优先个人知识库 Web App」,并考虑撰写新书。

三、适用读者与阅读收益

  • 想快速把大模型嵌入自己产品原型的 Python 开发者;
  • 关注数据隐私、希望本地/离线运行 LLM 的个人或企业;
  • 需要自然语言查询数据库、知识图谱、云文档的工程师;
  • 对 RAG、Agent、Embeddings 等热门概念「不止于 API 调用」、想深入内部机制的进阶者。

通读本书,你将获得:

  1. 从环境搭建到生产部署的全流程范例代码(GitHub 持续更新);
  2. 不同模型(云端/本地、商业/开源)之间的迁移与权衡思路;
  3. 把「大模型 + 自有数据」真正做成可交互产品的设计范式与踩坑经验。

四、总结

《LangChain and LlamaIndex Projects Lab Book》是一份「面向实战的大模型工具包说明书」:用大量可运行、可组合的 Python 脚本,示范如何把 GPT-4、Llama2、Mistral 等模型与知识图谱、云盘、数据库、邮件日历等真实世界服务" Hook"到一起,帮助个人开发者以最小成本打造媲美大厂体验的智能化应用。

期待您的支持
捐助本站