人机协同:智能体系统的第三层架构

深度CrewAI2026年1月22日4 分钟阅读
人机协同:智能体系统的第三层架构
百威英博用 CrewAI 处理 2000 万工单,70% 走人机协同流程。人机协同(Human-in-the-Loop)不是限制,而是扩展了智能体系统的部署边界。

很多人觉得人机协同(Human-in-the-Loop)限制了 AI 智能体的能力,其实恰恰相反。

HITL 实际上大大扩展了你能部署的应用场景。什么叫扩展?

  • 需要 99.9% 准确率的用例?
  • 需要合规签字的用例?
  • 输出前需要人工润色的用例?
  • 需要人类随时介入或退出的用例?

现在都能部署了。

没有 HITL,这些用例很可能永远停留在试点阶段。但加上一层设计得当的人机协同层,它们就能上线。

这不是空谈,我们自己内部和客户都在实践:

  • 全球最大啤酒商百威英博(CrewAI 客户)每年通过 HITL 架构处理 2000 万张工单。
  • 另一家全球教育公司通过自动化材料生成,在提升质量的同时,预计今年能节省数百万美元。
  • 我们 CrewAI 自己也在用:每次销售通话后,一个工作流会自动生成个性化材料,并路由给销售代表审核。整个过程只需四分钟,而且以前我们根本做不到这种规模。

我们称之为 90/10 法则:90% 自动化,10% 人工增强。

具体比例会变,有些系统可能从 30/70 开始,再逐步调整。重点不是数字,而是要有支持两者的架构,让你能根据用例需求调整比例。

核心在于认识到某些决策需要人类判断,并从一开始就把它设计进架构里。

三层架构

我之前分享过我们从 20 亿次智能体执行中学到的东西:

  • 确定性主干(Flows),提供结构和控制
  • 关键处的智能(LLM / Agent / Crews),负责推理和适应

但我认为 HITL 是一个可选但相关的第三层,为人类引入了判断和问责的能力。

这里需要区分两种模式:

  • 人机协同(Human-in-the-loop):智能体暂停,人类审核或编辑,工作流继续。在特定检查点直接干预。
  • 人在回路(Human-on-the-loop):人类监控、调整参数,并在需要时介入。监督但不阻塞每一步。

第一种关乎精度,某些步骤需要人类判断;第二种更关乎信心,有人看着,可以介入。但归根结底,两者都扩展了你能上线的范围。

规模化实践

百威英博的首席技术与战略官 David Almeida 在我们的 Signal 大会上分享了他们对智能体 AI 的思考。

有趣的事实:百威英博全球每三瓶啤酒就有一瓶是他们卖的(包括我很多最爱),旗下平台拥有数百万客户。

他们是 CrewAI 的主要采用者,目前每年有 300 亿美元决策受 AI 影响。这说明他们不是在实验,而是在规模化运营。

David 分享的一个模式:他们的联系模型每年处理 2000 万张工单。在智能体 AI 之前,全是手动的。现在 30% 完全自主处理。另外 70% 呢?人机协同,智能体与员工并肩工作,路由请求、拉取信息、起草回复供人工审核。

他有一句话让我印象深刻:

AI 不会独立存在。AI 将存在于我们的技术平台中,创造价值。

这就是我们不断看到的架构模式。智能体和人类一起,各司其职。仅这一个用例,他们的目标价值就达 2800 万美元。

这就是财富 500 强规模的生产级智能体系统。

CrewAI 的实现方式

在开源侧,CrewAI Flows 现已通过 @human_feedback 装饰器原生支持 HITL。一行代码添加检查点。

code
@human_feedback(
    message="Review this before sending:",
    emit=["approved", "rejected", "needs_revision"]
)
def review_content(self, content):
    # your logic in here
    return content

使用这个简单的注解,流程会暂停,展示输出供审核,收集反馈,并根据响应路由到不同路径。支持跨异步人工交互的完整状态持久化,内置审计历史。

在企业侧,通过 AMP,我们增加了让这一切生产就绪的基础设施。你只需部署同样的代码,我们的客户就能获得:

  • 邮件优先通知 — 任何人都可以通过回复邮件来响应,无需平台账户。
  • 智能路由 — 按方法模式路由,或从流程状态动态拉取负责人。你的 CRM 显示 Alice 负责这个账户?审核就交给 Alice。
  • SLA 追踪 — 设置响应时间目标。查看谁在响应,瓶颈在哪里。
  • 自动响应后备方案 — 配置无人响应时的处理方式,流程不会挂起。
  • Webhooks — 推送到 Slack、Jira、ServiceNow 等任何你使用的工具。
  • 完整审计追踪 — 每个请求、响应和决策都带有时间戳记录。

开源装饰器给你检查点,AMP 给你规模化运行的控制平面。

为何现在重要

HITL 被更多采用和强调,这个时机并非偶然。

欧盟 AI 法案正在积极执行。FDA 要求高风险 AI 有人类监督。SOC2 审计在询问 AI 决策追踪。监管世界的步伐比大多数团队预期的要快。

但合规只是原因之一,归根结底还是商业成果。

企业发现,完全自主的智能体很棒,但加上第三层人类协同,你能覆盖更广泛的应用场景。百威英博的 David 说得很清楚:他们想在智能体领域领先,不是通过移除人类,而是通过构建智能体与人类协同工作的系统。

那些正在上线生产的团队,不是在把人类移出流程,而是在花时间设计流程本身。

关于人类参与 AI,有两种思考方式: 一些人视其为限制,想要最小化。 另一些人视其为架构,需要设计进去。 我更喜欢后者!

该功能现已上线。文档在此。 试试看,告诉我们你构建了什么。

本文编译自 A Missing Layer in Agentic Systems?,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论