Solo.io 开源 agentevals,解决智能体评估难题

深度The New Stack2026年3月28日3 分钟阅读
Solo.io 开源 agentevals,解决智能体评估难题
Solo.io 在 KubeCon Europe 上推出了 agentevals,这是一个用于评估智能体 AI 系统的开源框架。CEO Idit Levine 表示,评估是当前智能体基础设施中最大的未解问题,企业缺乏标准方法来衡量智能体的可靠性。

智能体 AI 火得不行,但怎么评估它们成了大问题。Solo.io 推出了一个叫 agentevals 的开源项目,专门用来帮开发者评估和基准测试智能体 AI 系统。

这个项目在阿姆斯特丹的 KubeCon Europe 上宣布。Solo.io 创始人兼 CEO Idit Levine 说,自主 AI 系统给云运维带来了新挑战。

“企业正在试验 AI 副驾驶和基础设施智能体,但当给它们开放目标时,他们缺乏对这些系统行为的可见性。AgentBench 帮助团队不仅了解模型能做什么,还能知道它们的推理在哪里崩溃。”

Levine 补充道:“评估是当前智能体基础设施中最大的未解问题。组织有构建智能体的框架、连接它们的网关和管理它们的注册表,但没有一致的方法来知道一个智能体是否真的可靠到可以在生产中信任。”

agentevals 能做什么

agentevals 提供了一个框架,用于测试 AI 智能体在真实工作流中的有效性,比如基础设施自动化、API 编排和服务管理。目标是给企业团队一个标准化的方式,在生产部署前测量自主智能体的可靠性、延迟和成功率。

这个框架与 Solo.io 的 Gloo Platform 和 Envoy Proxy 集成。你可以模拟多步骤任务,比如在受控条件下配置微服务、更新路由策略或排查 Kubernetes 集群问题。每次运行都会生成可复现的日志、指标和结果数据,可以用来比较不同的 AI 后端或智能体架构。

公司声称,agentevals 是第一个设计用来评估 LLM-as-Agent 在不同环境中的基准测试。为此,程序依赖 OpenTelemetry。

“无论你是使用商业 API 还是像 Llama 3 这样的开源 LLM,你都需要透明的指标来做决策。……我们希望 agentevals 成为 AI 运维社区的通用参考点。”

开源与捐赠

agentevals 在 GitHub 上以 Apache 2.0 许可证提供。Solo.io 计划与其他云原生供应商和 AI 研究小组合作,扩展测试库并集成常见的 ML 评估工具。

此外,Solo.io 将其 agentregistry——一个用于 AI 智能体、MCP 工具和 Agent Skills 的 AI 原生开源注册表——捐赠给了云原生计算基金会(CNCF)。这个程序让你能标准化如何在企业内编目、发现和管理 AI 能力。

随着大家纷纷转向智能体计算,这两个项目预计会吸引很多关注。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论