IBM 发布工业 AI 智能体基准 AssetOpsBench

深度Hugging Face2026年1月21日6 分钟阅读
IBM 发布工业 AI 智能体基准 AssetOpsBench
IBM Research 推出 AssetOpsBench,一个专为工业资产运维场景设计的 AI 智能体评估框架。它包含超过 140 个场景和 4.2K 个工作单,从六个维度评估智能体在复杂、多智能体环境下的表现。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Cursor 发布 Composer 2.5,基于 Moonshot Kimi K2.5 模型,性能在多项基准测试中接近 Opus 4.7 和 GPT-5.5,但输入/输出 token 价格仅为 $0.50/$2.50 每百万,远低于竞品。该版本改进了长期运行任务和指令遵循能力,但也存在奖励黑客等副作用。

深度The New Stack·5月20日·5 分钟

ChatVis利用大语言模型辅助生成ParaView科学可视化的Python代码,无需微调模型。通过链式思维提示简化、检索增强生成和迭代错误反馈,显著提升了代码生成成功率。

深度·5月20日·40 分钟

评论