20亿次智能体工作流实战经验

深度CrewAI2026年1月24日5 分钟阅读
20亿次智能体工作流实战经验
CrewAI在过去12个月处理了约20亿次智能体系统执行,服务了百事、强生、DocuSign等企业。从这些实战中,我们发现了从演示到生产系统的关键障碍和成功模式。

CrewAI在过去12个月里处理了大约20亿次智能体系统执行。

这个数字听起来惊人,但也只是智能体技术发展的一小部分。

百事、强生、普华永道、美国国防部、DocuSign、百威英博、BDO、NTT Data、益博睿——这只是我们帮助构建、监控和部署智能体的部分公司名单。

有些公司设定了惊人的目标:比如未来五年用CrewAI节省10亿美元,同时创造10亿美元收入。 另一家公司:几个月内让30%的工单完全自主处理。 还有一家:评估了市场上所有方案,经过自己的框架评估后选择了CrewAI,几周内就上线了,代码量比之前在其他框架上构建的少了14倍。

过去一年,我深入这些团队,观察了什么能上线、什么会出问题、什么模式会浮现。

为什么有些智能体永远无法上线

行业数据证实了许多团队已经知道的事实。

各种报告都指向同一个结论:质量(我更愿意称之为信任)是上线的最大障碍。无论这种不信任来自模型幻觉还是输出不一致。

我们注意到很多团队谈到智能体系统有多复杂,早期的抽象选择会迅速堆积并成为障碍。许多工程师后悔选择基于图的架构——这些架构在截图上看起来很棒,但在生产中却成为调试噩梦,抽象层堆叠太多。

图、子图、状态对象,所有这些都隐藏了实际的智能体逻辑。当出现问题时,工程师需要挖掘多层间接引用才能找到是哪个提示词或工具导致的。再加上版本间的频繁破坏性变更,你现在花在维护框架上的时间比构建系统还多。

现实是:原型开发的需求仍然是生产需求的10倍。因此,市场上大多数产品都专注于智能体的“构建”部分,而在帮助公司真正解决智能体系统上线、运行并大规模产生实际业务成果方面存在不足。

问题不在于智能程度——大多数模型已经足够好。GPT-4o-mini至今仍在运行我们的许多生产工作负载。是的,最新模型在某些用例中表现惊人且强大,但这不是关键解锁点。

问题在于智能体运维(Agent Operations)方面:从“这在笔记本上能运行”到“这能在审计跟踪、人工监督和结果可追溯的情况下可靠地大规模运行,并且我们能信任它”。

成功跨越这一障碍的公司不只是构建更聪明的智能体,他们专注于构建智能体系统——从一开始就为生产设计的架构。这就是我们今天要讨论的部分内容。

实战中的模式

处理了数十个企业部署的数十亿个工作流后,你自然会看到一些模式浮现。

有些经验在事后看来很明显,但有些让我们感到惊讶。所有这些都来自观察真实团队部署真实的智能体系统,其中许多现在处理着数百万决策的生产工作负载。

反复出现的三个主要主题:

信任在生产中建立。 取得最大成果的团队不是从完全自主的智能体开始,而是从100%人工审核开始,然后逐步减少审核比例。 常见的情况是:客户从审核每个输出,到只审核50%,因为系统通过数千次执行证明了自己。

架构选择影响巨大。 快速实现价值的团队都擅长区分可预测和不可预测的部分。让确定性工作流处理结构,只在真正需要判断的地方战略性地部署智能体。

速度来自完整技术栈,而不仅仅是执行框架(Harness)。 另一个主要模式是:团队从一开始就有更完整的技术栈。他们将人机协同(Human-in-the-Loop)构建到架构中,而不是事后附加;他们能追踪每个决策到导致它的输入;他们能轻松监控质量和模型幻觉(Hallucination),并使用K8s进行部署。这种组合实际上已被证明是我们CrewAI AMP(Agent Management Platform)的超能力,但我们可以在另一篇文章中详细讨论。

大规模建立信任

一家人力资源服务公司找到我们时,他们的工单处理能力已经捉襟见肘:每月3000多张员工工单,合规团队疲于应付,而员工数量还在以2.5倍的速度增长。

这是智能体的绝佳初始用例。他们用CrewAI构建了智能体系统来处理所有后续工单,但没有一开始就让智能体处理所有事情——他们从100%人机协同(Human-in-the-Loop)审核开始,每个输出都经过人工审核。

他们给智能体起名Andy,它会起草回复、展示相关政策、标记边缘案例。但每张工单在到达员工之前都经过人工审核。

然后有趣的事情发生了:合规团队开始注意到质量,经过几千次执行后,他们的高级副总裁问:“我们能把这些输出用来培训我们的人工客服吗?” 这时他们知道可以开始减少监督了。现在Andy处理50%以上的接触点时不需要人工审核,因为智能体通过数千次一致、可审计的决策赢得了信任。

改进速度比他们预期的更快,只用了数周而不是数月。这引发了一个思考:看似“简单”的功能如人机协同(Human-in-the-Loop),如果部署得当,可以在系统证明自己时成为信任梯度。

架构选择影响巨大

DocuSign是最早采用CrewAI Flows的客户之一,观察他们如何架构系统让我们学到了很多关于大规模运作的经验。

他们的用例:销售管道加速。获取潜在客户、研究他们、撰写个性化外联、验证质量、发送。他们称之为3P:生产力、个性化、管道。

在构建之前,他们评估了市场:LangChain、AutoGen等。他们选择了CrewAI,而他们采用的模式说明了原因。

他们的初始用例包括五个智能体:识别器、研究员、撰写者、验证器和编排器。但这些智能体不是随意运行的——它们嵌入在一个确定性流程(Flow)中,该流程控制顺序、处理错误、管理状态。然后他们不断调整委托给模型的程度以及他们想要的自主权/智能程度——例如,不可预测的部分(研究、撰写)获得了很大的自主权。

仅他们的验证就有三层:LLM作为质量评判者、针对源材料的模型幻觉(Hallucination)检查、基于API的质量评分。当出现问题时,他们确切知道是哪一层发现了问题以及如何修复。

结果是周转时间显著减少,电子邮件打开率、回复率和转化率都更高。而且他们的团队能够维护这个代码库——另一家客户的类似迁移内部评估显示,代码量比之前基于图的实现少了14倍。

这就是我们所说的智能体系统:不仅仅是能够推理的智能体,而是生产架构,其中确定性和概率性部分被有意分离。

速度来自完整技术栈

实现价值的速度通常是所用工具和从一开始就对构建内容有良好理解的副产品。

我们在几乎所有成功部署中注意到的模式不是团队快速行动、打破常规,而是恰恰相反——他们花时间评估重要的决策。

百威英博是个好例子,他们每年通过AI处理300亿美元的决策。当他们的领导层说“我希望我们公司在智能体领域领先”时,这是一个命令。他们现在在CrewAI AMP(Agent Management Platform)中有数十个用例上线,对利润产生了数百万美元的影响!

实现这种速度的原因不仅仅是更好的模型或更聪明的智能体。而是从一开始就有完整的技术栈:从基础设施、K8s、追踪每个决策的可观测性(Observability)、构建到架构中的人机协同(Human-in-the-Loop)、通过安全审查的部署选项、适当的个人身份信息保护等。

如果你正在构建

20亿次执行告诉我们:“工作演示”和“生产系统”之间的差距是大多数团队卡住的地方,这主要是因为关注点放在了问题的错误部分。

成功部署真实智能体系统的公司发现:智能只是基本要求,真正的解锁点是围绕它的一切:通过透明性建立的信任、分离可预测与不可预测的架构,以及将生产作为起点的技术栈。

这就是我们正在构建的方向。

本文编译自 Lessons From 2 Billion Agentic Workflows,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论