从提示词工程到 Agent 系统,从 RAG 到 MCP。通过交互式演示,直观掌握现代 AI 应用的每一个关键概念。
开始学习 ↓LLM / RAG / Agent / Fine-tuning 的关系全景
入门Prompt 设计、Few-shot、Chain-of-Thought
入门窗口管理、信息密度、长上下文策略
入门查→拼→答 + 幻觉问题与缓解
中级Chunking、HyDE、Re-ranking
中级Self-RAG & CRAG 自适应架构
高级四大组件 + 运行循环 + Guardrails
高级ReAct、Plan-and-Execute、Multi-Agent
高级Model Context Protocol — Agent 的 USB 接口
高级RAG + Agent + MCP 统一选型与部署
高级同一个 LLM,不同的提示词可以让输出质量天差地别。提示词工程不是"奇技淫巧",而是理解模型如何处理输入、如何生成输出的系统方法论。它是所有 AI 应用(RAG、Agent)的底层基础。
通过定义模型的身份、专业背景和行为准则,大幅提升输出的专业度和一致性。
在提示词中给出几个输入→输出的示例,让模型"照着做"。比口头描述格式要求有效得多。
让模型"一步步思考"再给出答案,显著提升复杂推理任务的准确率。
触发方式:在提示词末尾加 "Let's think step by step" 或 "请逐步推理"。
要求模型以 JSON、XML 或特定格式输出,方便下游系统解析。在 RAG 和 Agent 系统中尤其关键。
不是每次都需要六层齐全,但复杂任务中层次越完整,输出越可控。兜底指令如"如果不确定请说明"可以有效减少幻觉。
如果说提示词工程关注的是"说什么",上下文工程关注的是"在什么背景下说"。它是一门系统性地管理送入模型的所有信息的学问——包括系统提示、对话历史、外部知识、工具结果等。Andrej Karpathy 提出这个概念,认为它比单纯的提示词工程更重要。
每个 token 都很宝贵。去除冗余、压缩对话历史、只注入最相关的检索结果。质量 > 数量。
模型对开头和结尾的信息关注度最高("Lost in the Middle" 现象)。把最重要的信息放在头尾。
对话变长时要主动裁剪旧消息、摘要化历史、只保留关键上下文。避免窗口溢出。
System Prompt 定全局规则,RAG 结果提供事实,对话历史提供连续性——每层各司其职。
关注"怎么说"——措辞、格式、技巧。
像写一封好邮件。
关注"带什么信息"——选择、组织、裁剪。
像准备一场会议的全部材料。
大语言模型存在两个根本局限:知识截止(训练数据有时间限制)和幻觉(可能自信地编造答案)。RAG 正是为了解决这两个问题而设计的。
幻觉(Hallucination)是 LLM 生成看似合理但实际错误的信息。RAG 通过提供真实参考资料来约束模型,但并不能完全消除幻觉。
检索前是在"备好弹药"——构建高质量的向量空间。
检索中是在"打得更准"。
检索后是在"精选精炼"。
问答对简短独立。chunk=128, overlap=10%
小 chunk · 低重叠
条款间有上下文依赖。chunk=256, overlap=20%
中 chunk · 中重叠
代码示例和解释跨段落。chunk=400, overlap=15%
大 chunk
论点层层递进。chunk=200, overlap=25%
高重叠
HyDE(Hypothetical Document Embeddings)的核心洞察:用户的问题和知识库文档"长得不像",但 LLM 生成的假设回答和知识库文档"长得很像"。
"量子计算对密码学有什么影响?"——短 query,信息量有限。
"量子计算机利用 Shor 算法可以在多项式时间内分解大整数,这将使 RSA 和 ECC 面临威胁。后量子密码学正在研究基于格的密码……"
⚠ 可能不准确,但我们只需要它的"语义方向"
假设文档和真实文档形态相似——都是长段落、专业术语密集。"文档 vs 文档"匹配更精确。
假设文档只是"指南针"——不需要自己是目的地,只需指对方向。最终回答基于检索到的真实文档。
探索性问题、概念性查询、跨语言检索、用户提问模糊宽泛的场景(研究助手、学术搜索)
精确查找(订单号、SKU)、低延迟要求(实时客服)、LLM 对领域完全陌生的冷启动场景
模型输出 Retrieve=yes/no,如果 no 则直接用自身知识回答。
对每个检索文档并行生成候选回答,同时输出 IsRel / IsSup / IsUse。
综合评分用 beam search 选最高分候选。分数都低可重新检索。
和普通 RAG 一样先检索 Top-K。
T5-large 微调的评估器对每个结果打分。
高度相关,知识精炼器提取关键信息。
不相关,触发网络搜索兜底。
保留两路结果合并送入 LLM。
| 维度 | Self-RAG | CRAG |
|---|---|---|
| 核心思路 | 模型内化反思能力 | 外挂质检中间层 |
| 是否改 LLM | 是,全量 SFT | 否,LLM 不动 |
| 决策粒度 | token 级别 | query 级别 |
| 纠错方式 | 并行候选 + 评分 | web search 兜底 |
| 适用场景 | 高质量要求(研究) | 快速集成生产系统 |
核心引擎,负责理解、推理和决策。
搜索、数据库、API、代码执行器。LLM 做不到的事通过工具完成。
拆解复杂任务为子步骤,制定和调整执行计划。
短期(当前对话)+ 长期(持久化存储),积累经验。
接收用户指令或环境输入,理解目标。
LLM 分析情况,决定下一步。可用 CoT 或规划模块。
调用工具执行操作:搜索、运行代码、调 API 等。
接收工具结果,评估是否达成目标。
完成→输出。未完成→回到步骤 2。出错→调整策略。
点击按钮观察 Agent 的"思考→工具调用→观察→再思考"循环:
Agent 能执行真实操作(发邮件、修改数据库、调用付款 API),因此安全护栏至关重要。
像一个博学的顾问
像一个能干的全能助手
给模型"查字典"的能力。解决知识更新和幻觉问题。是一种信息增强策略。
改造模型的"大脑结构"。让模型学会新技能或适配领域。是一种能力内化策略。
给模型"手和脚"。让模型能规划和执行真实任务。是一种行动赋能策略。
LangGraph 基于图的状态机,灵活度最高;CrewAI 专注多智能体协作,上手快。
专注代码生成和编辑的 Agent,能读取项目、编写测试、修复 bug。
Anthropic 提出的开放标准,统一接入各种外部工具和数据源。
AutoGen 多 Agent 对话框架;DSPy 声明式 AI 编程框架。
LLM 的不确定性会在多步中累积放大。每步 95% 准确率,10 步后只剩 60%。需要充分的错误处理和回退机制。
每次任务可能调用数十次 LLM,成本远高于单次问答。需合理设置最大迭代次数和 token 预算。
能执行真实操作(发邮件、改数据库),必须有明确的权限边界和人工审批节点。
多步推理的黑箱问题。需要完善的日志、trace、中间状态可视化才能调试和优化。
MCP(Model Context Protocol)是 Anthropic 提出的开放标准,它为 AI 模型连接外部数据源和工具定义了一套统一的协议。类比:在 USB 标准出现之前,每个外设都需要专用接口;MCP 就是 AI 世界的 USB——一个标准协议,让任何 Agent 能接入任何工具。
每接入一个工具都要写定制代码。N 个模型 × M 个工具 = N×M 种集成。维护噩梦。
所有工具实现统一的 MCP Server 接口。N 个模型 + M 个工具 = N+M 种集成。即插即用。
| 维度 | 传统 API 集成 | MCP |
|---|---|---|
| 集成方式 | 每个工具单独写适配代码 | 统一协议,即插即用 |
| 发现机制 | 手动配置工具列表 | Server 自动声明能力 |
| 双向通信 | 通常只有请求-响应 | 支持双向实时通信 |
| 安全模型 | 各自实现 | 统一的权限和认证框架 |
| 可组合性 | 低,互相独立 | 高,多个 Server 自由组合 |
代码仓库管理、PR 审查、Issue 跟踪
数据库查询、缓存操作
消息发送、邮件管理、日程安排
云资源管理、部署、监控
文档读写、知识库检索
网页浏览、截图、数据抓取
Milvus 开源高性能;Qdrant Rust 实现快;Pinecone 全托管。小规模用 Chroma 或 pgvector。
开源首选 BGE-M3(多语言);商用首选 OpenAI text-embedding-3。
LangChain 生态大;LlamaIndex 专注 RAG;LangGraph 做 Agent 状态机。
商用首选 Cohere Rerank API;开源用 bge-reranker-v2。
商用首选 Claude 或 GPT-4o;开源用 Llama 3、Qwen 2.5。
LangGraph 灵活度最高;CrewAI 多智能体协作上手快。
快速构建自定义 MCP Server,接入任何内部工具。
RAG 效果评估、Agent trace 分析、可观测性。
Chroma + LangChain + OpenAI Embedding + Claude。固定 chunk,无 re-ranking。跑通端到端。
混合检索 + re-ranking + 语义 chunking + overlap 优化 + 元数据过滤。
引入 Agent 循环 + MCP 工具接入 + query 改写 + CRAG 评估模块 + 用户反馈循环。
生产向量库(Milvus/Qdrant)+ 权限控制 + Guardrails + 日志监控 + A/B 测试 + 自动化数据更新。