IBM 开源 CUGA:可配置 AI Agent 登陆 Hugging Face

AI 智能体正迅速成为构建智能应用的关键,但创建健壮、可适应且能跨领域扩展的智能体仍然是个挑战。许多现有框架在处理复杂工作流时,常面临脆弱性、工具误用和失败等问题。
CUGA(Configurable Generalist Agent) 就是为了克服这些限制而设计的。它是一个开源的 AI 智能体,为企业用例提供了灵活性、可靠性和易用性。通过抽象编排复杂性,CUGA 让开发者能专注于领域需求,而非智能体构建的内部细节。现在,随着它集成到 🚀Hugging Face Spaces🚀,用 CUGA 和开源模型做实验变得前所未有的简单。
什么是 CUGA?
CUGA 是一个可配置的通用 AI 智能体,支持跨 Web 和 API 环境的复杂多步骤任务。它在多个领先基准测试中取得了顶尖成绩:
🥇 AppWorld 排名第一 - 一个包含 457 个 API 的 750 个真实世界任务的基准测试 🥈 WebArena 顶级表现(2025年2月至9月排名第一) - 展示了 CUGA 的计算机使用能力,这是一个跨应用领域的自主 Web 智能体复杂基准测试
CUGA 的核心特性包括:
- 高性能通用智能体:在复杂 Web 和 API 任务上经过基准测试,它结合了最佳的智能体模式(如规划器-执行器、代码执行),采用结构化规划和智能变量管理,防止模型幻觉并处理复杂性
- 可配置的推理模式:通过灵活的推理模式(从快速启发式到深度规划)平衡性能和成本/延迟,根据任务需求进行优化
- 计算机使用:轻松将 UI 交互与 API 调用结合到工作流中
- 多工具集成:通过 OpenAPI 规范、MCP 服务器和 LangChain 无缝集成工具,快速连接到 REST API、自定义协议和 Python 函数
- 与 Langflow 集成:通过低代码可视化构建体验设计并部署智能体工作流,无需大量编码
- 可组合性:CUGA 可以作为工具暴露给其他智能体,实现嵌套推理和多智能体协作
我们还在持续创新,引入新的实验性能力,包括:
- 可配置的策略和人机协同(Human-in-the-Loop)指令:在企业环境中提高对齐性,确保智能体行为安全
- 保存和重用能力:捕获并重用成功的执行路径(计划、代码和轨迹),在重复任务中实现更快、更一致的行为
图 1: CUGA 智能体架构
CUGA 架构始于用户消息流入聊天层,该层基于上下文解释意图并构建用户目标。任务规划和控制组件随后将此目标分解为结构化子任务,通过动态任务账本进行程序化跟踪。该账本支持在需要时重新规划,确保健壮执行。子任务被委托给专门的智能体,例如 API 智能体,它在安全沙盒中调用代码前,使用内部推理循环生成伪代码指令。系统利用一个超越 MCP 协议的工具注册表来解析和理解工具能力,实现精确编排。所有步骤完成后,最终响应返回给用户,提供可靠、策略对齐的结果。
CUGA 在推理速度快时表现最佳。当每次调用耗时数秒时,延迟会累积,迫使在智能体能力和用户体验之间做出权衡。在像 Groq 这样的高性能推理平台上运行,展示了快速推理如何从根本上扩展智能体架构的能力边界。
开源与开源模型
CUGA 完全开源,采用 Apache 2.0 许可证,你可以在 cuga.dev 找到我们。
通过拥抱开源模型,CUGA 与 Hugging Face 民主化 AI 的理念保持一致——让开发者自由选择最适合其需求的模型,无论是用于实验还是生产。
CUGA 已经与多种开源模型进行了测试,包括 gpt-oss-120b 和 Llama-4-Maverick-17B-128E-Instruct-fp8(两者均托管在 Groq 上)。我们的 Hugging Face Space 使用 gpt-oss-120b,模型托管在 Groq 上,为 LLM 调用提供快速响应时间。
Groq 在其定制构建的 LPU 上运行开源模型,这些 LPU 专为 AI 推理设计,非常适合 CUGA 架构所需的重复智能体推理,使得规划、执行和验证步骤能够快速完成。结果是强大的成本和性能优势:开源模型比闭源替代方案便宜约 80-90%;Groq 的 OpenAI 兼容 API 满足生产延迟需求;CUGA 在模型、提供商和部署拓扑方面保持完全可配置。
与 Langflow 集成:可视化智能体设计更简单
为了让智能体开发更加易用,CUGA 与 Langflow 集成,这是一个用于构建 LLM 驱动工作流的开源可视化编程界面。其直观的拖放界面降低了偏好低代码解决方案用户的入门门槛。
从 Langflow 1.7.0 开始,CUGA 自带其专属组件,使用户能够可视化地组装复杂的多工具智能体,并一键部署。你可以在 langflow.org 上试试看。
试试 Hugging Face 演示:动手预览
我们已在 Hugging Face Spaces 上发布了一个 CUGA 演示,让你体验其可能性。这个演示展示了一个小型 CRM 系统,并为 CUGA 配备了20 个预配置工具,用于通过 API 智能体处理销售相关数据查询和 API 交互。为了让实验更强大,演示还提供对工作空间文件的访问,使你能够使用预定义策略。
在 Hugging Face Spaces 上试试看,并分享你的反馈!
结论与行动号召
CUGA 为 AI 智能体构建带来了新的灵活性和开放性。要与我们互动:
- 试试 Hugging Face Spaces 演示,实验 CRM 设置和自定义策略
- 在 Langflow 上试用我们
- 探索 CUGA GitHub 仓库,部署你自己的实例,尝试计算机使用能力,深入探索并为项目做贡献
- 请**分享你的反馈**!你的见解将帮助塑造下一代可配置 AI 智能体。
觉得有用?分享给更多人