Gaia2 与 ARE:开源智能体研究新框架

深度Hugging Face2025年9月22日5 分钟阅读
Gaia2 与 ARE:开源智能体研究新框架
Hugging Face 团队推出 Gaia2 智能体评测基准和 ARE 执行框架,模拟真实世界复杂条件,让开发者能更深入地研究和调试智能体行为。Gaia2 包含 1000 个全新人类创建的场景,覆盖执行、搜索、模糊处理等七类任务。
本文编译自 Gaia2 and ARE: Empowering the community to study agents ,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

ThoughtTrace是首个大规模数据集,记录了用户与AI对话中的自述想法(发送提示的原因及对回复的反应),包含1,058名用户、2,155次对话及10,174条想法标注。分析表明,想法与消息语义不同,大模型难以从上下文推断,并能提升用户行为预测和个性化助手训练质量。该数据集为理解人机交互中的认知动态提供了新模态。

深度·5月22日·21 分钟

本文提出HASP框架,将智能体技能升级为可执行程序函数,在推理时或训练后主动干预智能体循环。在网页搜索、数学推理和编程任务上,HASP相比现有方法提升25%-30%性能,揭示了技能内化与稳定演化的机制。

深度·5月22日·20 分钟

评论