作者: | Hunaidkhan Pathan and Nayankumar Gajjar |
语言: | 英文 |
出版年份: | 2025 |
编程语言: | Python |
其他分类: | 人工智能 |
下载链接: |
书籍均收集自互联网,仅供学习和研究使用,请莫用于商业用途。谢谢合作。 |
模块 | 章节 | 核心收获 |
---|---|---|
基础 | 1-3 | Python、虚拟环境、IDE 选择、多种运行脚本方式 |
NLP 入门 | 4 | 分词、n-gram、停用词、词干提取、词性标注、NER、情感分析、词嵌入、主题建模等概念 + 代码 |
LLM 理论 | 5 | Transformer 发展史、注意力机制、GPT/BERT/T5/DistilBERT/RoBERTa/XLNet 等模型对比与适用场景 |
LangChain 实战 | 6 | 生态概览、数据加载器、向量存储(Chroma/FAISS)、开源 LLM 调用、嵌入模型、链式调用 LCEL、评估器 |
Hugging Face 深度 | 7 | Hub、Dataset、Inference API、transformers 三大用法(pipeline/hub/auto-class)、评估指标(ROUGE/BLEURT/METEOR/Perplexity)、迁移学习零样本示范 |
RAG 聊天机器人 | 8 | 用自定义 PDF 构建“检索-增强-生成”问答机器人;Gradio 一键分享 demo;Loader & Vector Store 速查表 |
调参与微调 | 9 | 训练侧(学习率、batch、epoch、早停、正则化等)与推理侧(Temperature、Top-p/k、频率/存在惩罚、上下文窗口)系统解读;开源模型微调脚本 + OpenAI 格式 jsonl 转换示例 |
落地与扩展 | 10-11 | 对接 Telegram 的实战案例;AWS SageMaker 步骤化部署;GCP 简介 |
未来展望 | 12 | 多模态、小领域模型、Agent 框架、量化、向量数据库、护栏与伦理 |
速查 | 附录A/B | LLM 实验 20 条实用技巧;书籍、论文、社区资源导航 |
一条龙代码示例:
DirectoryLoader + RecursiveCharacterTextSplitter
解析本地 PDF;sentence-transformers/all-MiniLM-L6-v2
做嵌入,存入 Chroma;RetrievalQA
链实现“上下文问答”;模型比较与评估:
ModelLaboratory
横向对比 Falcon、Phi-3 等模型输出;evaluate
库计算 ROUGE、BLEURT、METEOR、困惑度,量化生成质量。微调流程拆解:
Trainer
接口,演示如何在单卡 GPU 上微调 GPT-2;**《Mastering LLM Applications with LangChain and Hugging Face》**像一张“大模型落地路线图”:
从环境搭建、理论速通,到用 LangChain 串起 Hugging Face 的模型与数据,
最终完成一个可分享、可上线、可扩展的生成式 AI 应用——
“读完即可把 PDF 文件夹变成懂人话的聊天机器人”。