IBM 开源 CUGA:可配置 AI Agent 登陆 Hugging Face

指南Hugging Face2025年12月15日4 分钟阅读
IBM 开源 CUGA:可配置 AI Agent 登陆 Hugging Face
IBM Research 在 Hugging Face 发布 CUGA(Configurable Generalist Agent),这是一个开源的、可配置的通用 AI 智能体。它在 AppWorld 和 WebArena 等复杂任务基准测试中取得了领先成绩,并集成了 Langflow 以实现可视化工作流设计。

AI 智能体正迅速成为构建智能应用的关键,但创建健壮、可适应且能跨领域扩展的智能体仍然是个挑战。许多现有框架在处理复杂工作流时,常面临脆弱性、工具误用和失败等问题。

CUGA(Configurable Generalist Agent) 就是为了克服这些限制而设计的。它是一个开源的 AI 智能体,为企业用例提供了灵活性、可靠性和易用性。通过抽象编排复杂性,CUGA 让开发者能专注于领域需求,而非智能体构建的内部细节。现在,随着它集成到 🚀Hugging Face Spaces🚀,用 CUGA 和开源模型做实验变得前所未有的简单。

什么是 CUGA?

CUGA 是一个可配置的通用 AI 智能体,支持跨 Web 和 API 环境的复杂多步骤任务。它在多个领先基准测试中取得了顶尖成绩:

🥇 AppWorld 排名第一 - 一个包含 457 个 API 的 750 个真实世界任务的基准测试 🥈 WebArena 顶级表现(2025年2月至9月排名第一) - 展示了 CUGA 的计算机使用能力,这是一个跨应用领域的自主 Web 智能体复杂基准测试

CUGA 的核心特性包括:

  • 高性能通用智能体:在复杂 Web 和 API 任务上经过基准测试,它结合了最佳的智能体模式(如规划器-执行器、代码执行),采用结构化规划和智能变量管理,防止模型幻觉并处理复杂性
  • 可配置的推理模式:通过灵活的推理模式(从快速启发式到深度规划)平衡性能和成本/延迟,根据任务需求进行优化
  • 计算机使用:轻松将 UI 交互与 API 调用结合到工作流中
  • 多工具集成:通过 OpenAPI 规范、MCP 服务器和 LangChain 无缝集成工具,快速连接到 REST API、自定义协议和 Python 函数
  • 与 Langflow 集成:通过低代码可视化构建体验设计并部署智能体工作流,无需大量编码
  • 可组合性:CUGA 可以作为工具暴露给其他智能体,实现嵌套推理和多智能体协作

我们还在持续创新,引入新的实验性能力,包括:

  • 可配置的策略和人机协同(Human-in-the-Loop)指令:在企业环境中提高对齐性,确保智能体行为安全
  • 保存和重用能力:捕获并重用成功的执行路径(计划、代码和轨迹),在重复任务中实现更快、更一致的行为

CUGA Agentic Architecture 图 1: CUGA 智能体架构

CUGA 架构始于用户消息流入聊天层,该层基于上下文解释意图并构建用户目标。任务规划和控制组件随后将此目标分解为结构化子任务,通过动态任务账本进行程序化跟踪。该账本支持在需要时重新规划,确保健壮执行。子任务被委托给专门的智能体,例如 API 智能体,它在安全沙盒中调用代码前,使用内部推理循环生成伪代码指令。系统利用一个超越 MCP 协议的工具注册表来解析和理解工具能力,实现精确编排。所有步骤完成后,最终响应返回给用户,提供可靠、策略对齐的结果。

CUGA 在推理速度快时表现最佳。当每次调用耗时数秒时,延迟会累积,迫使在智能体能力和用户体验之间做出权衡。在像 Groq 这样的高性能推理平台上运行,展示了快速推理如何从根本上扩展智能体架构的能力边界。

开源与开源模型

CUGA 完全开源,采用 Apache 2.0 许可证,你可以在 cuga.dev 找到我们。

通过拥抱开源模型,CUGA 与 Hugging Face 民主化 AI 的理念保持一致——让开发者自由选择最适合其需求的模型,无论是用于实验还是生产。

CUGA 已经与多种开源模型进行了测试,包括 gpt-oss-120b 和 Llama-4-Maverick-17B-128E-Instruct-fp8(两者均托管在 Groq 上)。我们的 Hugging Face Space 使用 gpt-oss-120b,模型托管在 Groq 上,为 LLM 调用提供快速响应时间。

Groq 在其定制构建的 LPU 上运行开源模型,这些 LPU 专为 AI 推理设计,非常适合 CUGA 架构所需的重复智能体推理,使得规划、执行和验证步骤能够快速完成。结果是强大的成本和性能优势:开源模型比闭源替代方案便宜约 80-90%;Groq 的 OpenAI 兼容 API 满足生产延迟需求;CUGA 在模型、提供商和部署拓扑方面保持完全可配置。

与 Langflow 集成:可视化智能体设计更简单

为了让智能体开发更加易用,CUGA 与 Langflow 集成,这是一个用于构建 LLM 驱动工作流的开源可视化编程界面。其直观的拖放界面降低了偏好低代码解决方案用户的入门门槛。

Langflow 1.7.0 开始,CUGA 自带其专属组件,使用户能够可视化地组装复杂的多工具智能体,并一键部署。你可以在 langflow.org 上试试看。

试试 Hugging Face 演示:动手预览

我们已在 Hugging Face Spaces 上发布了一个 CUGA 演示,让你体验其可能性。这个演示展示了一个小型 CRM 系统,并为 CUGA 配备了20 个预配置工具,用于通过 API 智能体处理销售相关数据查询和 API 交互。为了让实验更强大,演示还提供对工作空间文件的访问,使你能够使用预定义策略

Hugging Face Spaces 上试试看,并分享你的反馈!

结论与行动号召

CUGA 为 AI 智能体构建带来了新的灵活性和开放性。要与我们互动:

本文编译自 CUGA on Hugging Face: Democratizing Configurable AI Agents,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论