智能体持续学习的三层架构

深度LangChain2026年4月5日3 分钟阅读
智能体持续学习的三层架构
AI 持续学习通常只关注模型权重更新,但智能体系统能在模型、执行框架和上下文三个层面同时进化。理解这种分层结构,能帮你设计出真正随时间改进的系统。

AI 领域的持续学习讨论,大多集中在模型权重更新上。但对于智能体(Agent)来说,学习可以发生在三个不同的层面:模型(Model)、执行框架(Harness)和上下文(Context)。理解这三者的区别,能彻底改变你构建可进化系统的方式。

智能体系统的三个主要层面是:

  • 模型:模型权重本身。
  • 执行框架(Harness):驱动智能体所有实例的框架代码,包括始终作为框架一部分的指令或工具。
  • 上下文:存在于框架之外的额外上下文(指令、技能),可用于配置框架。

示例一:映射到 Claude Code

  • 模型:claude-sonnet 等
  • 执行框架:Claude Code
  • 用户上下文:CLAUDE.md,/skills,mcp.json

示例二:映射到 OpenClaw

  • 模型:多种
  • 执行框架:Pi + 其他脚手架
  • 智能体上下文:SOUL.md,来自 clawhub 的技能

当我们谈论持续学习时,大多数人会立刻想到模型层面。但实际上,一个 AI 系统可以在这三个层面都进行“学习”。

模型层的持续学习

这是持续学习最常见的含义:更新模型权重。

更新技术包括监督微调(SFT)、强化学习(如 GRPO)等。

这里的一个核心挑战是灾难性遗忘——当模型在新数据或任务上更新时,它往往会遗忘之前学到的知识。这是一个待解决的研究难题。

当人们为特定智能体系统训练模型时(例如,你可以将 OpenAI 的 Codex 模型视为为其 Codex 智能体训练的),他们通常是为整个智能体系统进行的。理论上,你可以进行更细粒度的训练(例如,为每个用户训练一个 LoRA),但实践中这主要在智能体层面进行。

执行框架层的持续学习

如前所述,执行框架指的是驱动智能体的代码,以及始终作为框架一部分的指令或工具。

随着执行框架变得越来越流行,已经有多篇论文讨论如何优化它们。最近的一篇是 《Meta-Harness: End-to-End Optimization of Model Harnesses》

核心思想是:智能体在一个循环中运行。首先让它处理一堆任务并进行评估。然后将所有这些执行日志存储到文件系统中。接着,运行一个编码智能体来查看这些轨迹,并建议对框架代码进行修改。

与模型的持续学习类似,这通常在智能体层面进行。理论上,你也可以进行更细粒度的操作(例如,为每个用户学习不同的代码框架)。

上下文层的持续学习

“上下文”位于框架之外,可用于配置框架。上下文包括指令、技能,甚至工具。这也常被称为记忆(Memory)。

同类型的上下文也存在于框架内部(例如,框架可能有基础系统提示、技能)。区别在于它是框架的一部分还是配置的一部分。

学习上下文可以在几个不同的层面进行。

可以在智能体层面学习上下文——智能体拥有持久的“记忆”,并随时间更新其自身配置。一个很好的例子是 OpenClaw,它有自己的 SOUL.md,会随时间更新。

更常见的是在租户层面(用户、组织、团队等)学习上下文。在这种情况下,每个租户都有自己的上下文,并随时间更新。例子包括 Hex 的 Context Studio、Decagon 的 Duet、Sierra 的 Explorer。

你还可以混合搭配!例如,一个智能体可以同时拥有智能体层面的上下文更新、用户层面的上下文更新和组织层面的上下文更新。

这些更新可以通过两种方式完成:

  • 事后离线任务:类似于框架更新——运行一批最近的轨迹来提取见解并更新上下文。这就是 OpenClaw 所称的“做梦(Dreaming)”。
  • 在智能体运行的热路径中:智能体可以决定(或用户可以提示它)在执行核心任务时更新其记忆。

这里需要考虑的另一个维度是记忆更新的显式程度。是用户提示智能体记住,还是智能体基于框架本身的核心指令进行记忆?

三层对比

执行轨迹是核心

所有这些流程都由执行轨迹(Traces) 驱动——即智能体所做事情的完整执行路径。LangSmith 是我们的平台,其功能之一就是帮助收集这些轨迹。

然后,你可以以多种不同的方式使用这些轨迹。

如果你想更新模型,可以收集轨迹,然后与像 Prime Intellect 这样的合作伙伴合作来训练你自己的模型。

如果你想改进执行框架,可以使用 LangSmith CLI 和 LangSmith Skills 来让一个编码智能体访问这些轨迹。这种模式就是我们改进 Deep Agents(我们开源的、模型无关的通用基础框架)在终端基准测试上表现的方式。

如果你想随时间学习上下文(无论是在智能体、用户还是组织层面),那么你的智能体框架需要支持这一点。Deep Agents——我们首选的框架——以生产就绪的方式支持此功能。请参阅相关文档,了解如何实现用户级记忆、后台学习等功能的示例。

本文编译自 Continual learning for AI agents,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Cursor 3 将智能体管理控制台设为主界面,传统 IDE 降为备用视图,反映了 AI 开发工具从代码编辑向智能体编排的根本性转变。文章分析了 Cursor 面临 Claude Code 竞争的压力、其产品快速迭代的应对策略,并对比了 Anthropic、OpenAI、Google 在智能体编排层架构上的不同路径。

深度The New Stack·4月5日·5 分钟

本文系统阐述了编码智能体的核心构成,区分了 LLM、推理模型和智能体执行框架(Harness)的概念。作者指出,一个优秀的编码执行框架(Coding Harness)通过管理仓库上下文、工具调用和状态记忆,能极大提升模型的实际编码能力。

深度·4月5日·6 分钟

评论