Solo.io 开源 agentevals,解决智能体评估难题

智能体 AI 火得不行,但怎么评估它们成了大问题。Solo.io 推出了一个叫 agentevals 的开源项目,专门用来帮开发者评估和基准测试智能体 AI 系统。
这个项目在阿姆斯特丹的 KubeCon Europe 上宣布。Solo.io 创始人兼 CEO Idit Levine 说,自主 AI 系统给云运维带来了新挑战。
“企业正在试验 AI 副驾驶和基础设施智能体,但当给它们开放目标时,他们缺乏对这些系统行为的可见性。AgentBench 帮助团队不仅了解模型能做什么,还能知道它们的推理在哪里崩溃。”
Levine 补充道:“评估是当前智能体基础设施中最大的未解问题。组织有构建智能体的框架、连接它们的网关和管理它们的注册表,但没有一致的方法来知道一个智能体是否真的可靠到可以在生产中信任。”
agentevals 能做什么
agentevals 提供了一个框架,用于测试 AI 智能体在真实工作流中的有效性,比如基础设施自动化、API 编排和服务管理。目标是给企业团队一个标准化的方式,在生产部署前测量自主智能体的可靠性、延迟和成功率。
这个框架与 Solo.io 的 Gloo Platform 和 Envoy Proxy 集成。你可以模拟多步骤任务,比如在受控条件下配置微服务、更新路由策略或排查 Kubernetes 集群问题。每次运行都会生成可复现的日志、指标和结果数据,可以用来比较不同的 AI 后端或智能体架构。
公司声称,agentevals 是第一个设计用来评估 LLM-as-Agent 在不同环境中的基准测试。为此,程序依赖 OpenTelemetry。
“无论你是使用商业 API 还是像 Llama 3 这样的开源 LLM,你都需要透明的指标来做决策。……我们希望 agentevals 成为 AI 运维社区的通用参考点。”
开源与捐赠
agentevals 在 GitHub 上以 Apache 2.0 许可证提供。Solo.io 计划与其他云原生供应商和 AI 研究小组合作,扩展测试库并集成常见的 ML 评估工具。
此外,Solo.io 将其 agentregistry——一个用于 AI 智能体、MCP 工具和 Agent Skills 的 AI 原生开源注册表——捐赠给了云原生计算基金会(CNCF)。这个程序让你能标准化如何在企业内编目、发现和管理 AI 能力。
随着大家纷纷转向智能体计算,这两个项目预计会吸引很多关注。
觉得有用?分享给更多人