IBM 发布 VAKRA：企业级智能体基准测试

深度Hugging Face2026年4月15日5 分钟阅读

IBM Research 推出 VAKRA 基准测试，评估 AI 智能体在企业环境中的推理和工具调用能力。它包含 8000+ 本地 API 和 62 个领域数据库，要求智能体完成 3-7 步的复合推理链。

本文编译自 Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents，版权归原作者所有。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

关注 @skillnav_dev →阅读周刊

概念速查

AI 智能体

AI Agent 是能自主感知环境、制定计划并采取行动来完成目标的智能程序——不只是聊天，而是帮你干活。

OpenAI 和 Anthropic 同时更新语音功能，但方向不同

OpenAI 和 Anthropic 在同一天发布了语音功能更新。OpenAI 的 GPT-Live 让 ChatGPT 可以通过语音控制桌面应用、多任务并行处理；Anthropic 则强化了 Claude 的语音模式，支持更长的迭代对话和代码讨论。两家公司分别从任务自动化和深度思考两个方向拓展语音交互的边界。

深度The New Stack·7月23日·4 分钟

Claude 语音模式升级：接入日历和邮箱，能干活了

Anthropic 升级 Claude 语音模式，支持 Opus、Sonnet、Haiku 三种模型，并可调用外部应用完成实际任务，如改会议、写邮件。同时新增多语言支持，但免费用户仅限 Haiku 模型和单个连接应用。

深度·7月23日·3 分钟

IBM 发布 VAKRA：企业级智能体基准测试

概念速查

相关文章

OpenAI 和 Anthropic 同时更新语音功能，但方向不同

Claude 语音模式升级：接入日历和邮箱，能干活了

评论