智能体系统架构:生产级AI智能体的缺失环节

深度CrewAI2025年12月15日8 分钟阅读
智能体系统架构:生产级AI智能体的缺失环节
分析了17亿次企业智能体工作流后,发现阻碍AI智能体进入生产环境的核心不是智能,而是架构。真正的解决方案是:确定性主干(Deterministic Backbone)与智能的精准结合。

生产现实差距

智能体AI行业存在架构问题,但大多数人解决的是错误的方向。

每个人都在构建智能体。更聪明的提示词,更好的模型,但许多项目从未进入生产环境。智能体足够聪明,但架构跟不上。

大多数实现要么太僵化(无法适应的重型脚手架),要么太松散(无限制的自主性)。今年观察了企业客户运行的17亿次智能体工作流后,模式变得清晰:差距不在智能,而在架构。

真正有效的是:确定性主干与关键位置的智能结合

我们处理了医疗保健、消费品、金融、物流和专业服务等行业的智能体工作流。DocuSign采用此架构,在将销售研究时间从数小时缩短至数分钟的同时,提升了邮件参与率。

有趣的是,这种模式在不同客户中自然出现。我称之为智能体系统(Agentic Systems)。

行业正在竞相降低构建AI智能体的门槛,工具众多,但大多数实现并未准备好进入生产环境。

它们优化了构建时间或演示时间,但部署所需的基本差距和信心要求依然存在。

当前状态:行业卡在哪里

智能体AI领域发展迅速。两年前的问题是“智能体真的存在吗?”。今天,每个人都在构建它们,各种供应商将自动化工具重新包装为“智能智能体”。

但以下模式持续失败:

伪装成智能体的提示词链。 LLM + 工具循环。调用LLM,解析输出,链接另一个调用,调用API,格式化响应。在文档中添加“智能体”标签然后发布。这些只是在中间加了LLM的脚本化API调用。如果你的用例只需要这些,那很好,但当真正需要自主性时它们会崩溃,如果后期不断扩展以支持自主性,复杂度会急剧增加。

DAG/图论牺牲可维护性。 节点、边、状态机,视觉上令人印象深刻,概念上也合理。但生产环境似乎变成了调试图而不是解决业务问题。正如一位社区成员所说:“[基于图的框架]在状态管理上给你灵活性,但一旦工作流扩展,调试的痛苦超过了收益。”当每周都有破坏性变更时,你维护的是框架,而不是业务逻辑。

没有架构约束的自主智能体。 给它工具,设定目标,让它运行。这就是为什么我们看到“X%的智能体AI部署被取消”这样的预测。没有架构的无限制自主性无法给企业部署关键工作流所需的信心。

模式似乎是:每个人都在优化智能体智能,但几乎没有人构建系统架构。这是阻碍快速构建与建立信心、同时不牺牲可维护性的主要差距。

赢家不会拥有最聪明的智能体,而是拥有让智能体可信、可部署、可治理的架构。

智能体系统的这种自然模式似乎解决了其中很多问题。

什么是智能体系统?

从生产实际需求出发,而不是演示中看起来令人印象深刻的东西,而是当真实工作流和真实资金面临风险时你需要的东西。

你需要的系统至少是可观测的(追踪每个决策)、可治理的(执行策略)、成本可控的(规模可预测支出)、可审计的(满足监管要求)和可维护的(扩展时不会变成噩梦)。

智能体系统的架构方式提供可组合的构建块,而不是约束性的抽象,通过结合两个组件实现:

拥有结构的确定性主干。 我们称之为Flows,它们定义哪些步骤执行、以什么顺序、使用什么安全护栏(Guardrails)。Flows是非常薄的代码层,几乎没有抽象,只有高度灵活的装饰器、状态管理和其他基本原语,给你程序化控制。它们处理不引人注目但关键的部分:条件分支、跨步骤的状态管理、业务所需的任何自定义逻辑。你编写常规代码,而不是框架配置。相同输入,相同执行路径,设计上可预测,全部事件驱动,运行时可修改。

部署在关键位置的智能。 这是一个谱系:在低自主性端,可能是单次临时LLM调用或单个智能体。在高自主性端:整个包含多个智能体协作的Crew。它们在特定步骤被Flow有意调用。它们在Flow定义的范围内操作,完成后控制权总是返回主干。你获得AI的适应性和推理能力,而没有扼杀部署的不可预测性。

结构在你需要的地方,智能在关键的位置。

这种架构是DocuSign、KTKonecta、美国国防部、百威英博等公司正在生产中使用的,以规模化交付业务成果。

构建智能体系统

架构很简单,但你需要知道在哪里划清界限。

如果一个步骤不需要智能、数据验证、格式化或用已知参数调用API,它只是你Flow中的代码。不要用智能体过度复杂化,带我们走到今天的工程原则仍然有效,KISS(保持简单)是重要原则。

如果你需要单次补全,或简单的函数调用,比如“总结这份文档”、“提取这些字段”或“分类此输入”,单次LLM调用就足够了,不需要自主性开销,没有复杂性。

如果你需要一个带工具调用的智能任务,比如“研究这家公司并提取财务数据”或“跨多个来源验证这些凭证”,那么单个智能体可能就足够了,没有必要跳入完整的多智能体抽象,它可以推理、使用工具并处理任务。

但当你进入更复杂的推理、协作或多步骤智能时,比如“跨法律、财务和运营维度进行尽职调查”、“研究主题并撰写全面报告”,那么包含多智能体的Crew会带来很多价值,多个智能体协同工作,每个都有定义的角色,可能委托和验证彼此的工作,从自己的执行中学习,可追踪、可观测,带有PII过滤器等,包括采取行动、推理计划和在出错时自我修复的本地能力。

架构出错时会发生什么:

将一切都放入智能体,而其中一些应该是代码。 你无法适当调试,成本螺旋上升,该步骤的行为有些不可预测,每个变更都需要“测试智能体”而不是改变逻辑。

将太多内容塞入一个智能体。 上下文窗口(Context Window)爆炸,太多工具让它困惑,模型幻觉(Hallucination)增加,这是人们在单智能体与多智能体模式中碰到的天花板。

构建没有架构的复杂工作流。 当你有带真实分支和状态管理的多步骤流程时,仅仅串连智能体或LLM调用是不够的。你需要主干。

不测试不同模型。 在一个模型上有效的在另一个上失败。你的架构应该允许你交换模型而不重写系统。

获胜模式: 确定性主干(Flow)决定部分核心逻辑,然后某些特定步骤利用不同级别的智能体,从临时LLM调用、单个智能体到完整的Crew。

DocuSign如何构建

DocuSign提升了邮件打开率、回复率和转化率,同时将销售研究时间从数小时缩短至数分钟。以下是他们如何构建的。

DocuSign——一家收入数十亿美元的上市公司,其平台被90%的财富500强公司使用——面临一个基本问题:如何在不把每个销售代表变成全职研究员的情况下规模化个性化客户参与?

在我们上次的CrewAI Signal会议上,他们的首席AI架构师Vamsi和首席数据工程师Dhruv分享了他们如何将销售外展系统构建为智能体系统。

考虑到他们的业务渗透率,规模是他们首要考虑的问题,销售代表不能花费数小时研究客户、阅读公司报告、查看最新新闻和定位产品才能起草邮件。

DocuSign迅速采用了CrewAI Flows, 以下是Vamsi和Dhruv帮助推动的部分架构:

Flow实现核心确定性主干,并委托给一组协同工作的专业智能体,这些智能体能够从Salesforce、Snowflake获取数据,并应用业务规则来决定资格和匹配度。

通过模型幻觉护栏(CrewAI企业版功能),他们能够在运行时对某些条件做出反应,并实施质量验证流程,确保最终结果的高标准。

Flow管理整个过程中的状态、分支和验证。 每个智能体从先前步骤获取上下文。研究员(Researcher)为撰写者(Composer)提供信息。撰写者为验证者(Validator)提供信息。但核心控制总是返回Flow,当某些内容需要人工审查时,Flow适当路由,当智能体失败时,Crew优雅处理。

他们严格进行了A/B测试。 相同客户,相同时期,一些收到Crew生成的外展,一些收到代表生成的,智能体在参与度指标上匹配或击败了人类代表,同时显著缩短了周转时间。代表需要数小时的工作,系统只需数分钟,邮件打开率提升,回复率提升,转化率改善。

这为什么有效:

智能体可重用,工具也可重用(通过他们在CrewAI企业平台中的内部智能体和工具仓库)。DocuSign现在在整个组织中将相同的智能体架构用于不同用例,不仅仅是外展。这就是分离结构(Flow)与智能(Crews)的力量。

Flow强制执行不可协商的业务逻辑,智能体不决定_是否_执行这些步骤。它们在_这些步骤内_提供智能。

Vamsi和Dhruv的关键见解: 每个智能体在Flow定义的清晰边界内操作,它们不是自由漫游的,而是在特定步骤被调用的专业智能,执行特定工作,然后返回控制权。

为什么这很重要

系统的不同部分将以不同速度演变:

稳定部分(有清晰规则的成熟流程):可能永远不需要太多自主性。保持简单、快速、廉价。

实验部分(新用例、不确定需求):从更多自主性开始探索有效方法,随着模式出现固化为结构化Flows。

合规关键步骤(监管要求、审计追踪):结构保持恒定,即使模型改进,你不会将合规押注在模型行为上。

成本敏感量:成本下降时调高自主性,成本上升时调低。相同架构,不同设置。

长期获胜的团队不是追逐最新模型能力或最炫框架功能的团队。他们是构建仍能维护、调试和快速演进的系统的团队,同时保持两年后的理智,那时一半团队已更替,需求以无人预测的方式改变。

我们讨论的架构决策有直接业务影响。

可预测成本。当你控制自主性所在位置时,你控制支出。为高价值工作流调高,为常规工作流调低。像预算基础设施一样预算AI。

更快迭代。可维护系统意味着数周内交付新用例,而不是数季度。DocuSign从一个用例扩展到整个组织的多个用例,因为架构可重用。

降低风险。可观测、可治理系统意味着你实际上可以在受监管行业部署。医疗保健、金融、法律,这些地方“通常有效”不够好。

竞争护城河。当你的系统每次执行都变得更聪明时,竞争对手不能仅仅复制你的提示词就赶上。架构随时间积累优势。

这不仅仅是更好的工程。这是更好的业务。

这已经在发生

我们不是在谈论未来愿景,智能体系统现在就在生产中运行,财富500强医疗保健公司正在处理认证工作流。金融服务公司每月进行数千次风险评估。物流运营不能承受停机。这些不是演示,是人们押注工作的系统。

模式?每次都是相同架构。Flows管理结构和合规。Crews在关键位置提供智能。记忆(Memory)让系统每次运行都更智能。当某些东西出错时,工程师实际上可以调试,因为架构不会阻碍他们。

如果你准备好构建实际在生产中工作的系统,架构很简单。从可靠性开始。为可维护性设计。让智能在关键位置存在,结构在需要的地方存在。

公司有两种处理智能体的方式。

一些将其视为工程项目——评估原语、比较开发者工具、通过追踪和指标衡量成功。

另一些将其视为转型——通过生产中的用例、交付的业务成果、规模化工作的系统衡量成功。

未来不属于拥有最聪明智能体的团队。它属于拥有最强主干的团队。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论