超越准确率:揭示工具集成推理中的低效模式
深度2026年4月7日19 分钟阅读
研究发现工具集成推理中轨迹的PTE成本越高,推理正确性往往越低,表明单纯增加工具使用并不能提升答案质量。这篇论文适合AI系统工程师、大模型优化研究人员以及关注推理效率的从业者阅读。
觉得有用?分享给更多人
觉得有用?分享给更多人
Better-Harness 将评估数据视为智能体的训练数据,通过诊断、实验、验证和人工审核的闭环,自动优化执行框架。系统使用优化集和保留集防止过拟合,并利用生产轨迹生成评估案例,形成持续改进的飞轮。
Anthropic 限制其最新模型 Claude Mythos 的访问,仅提供给 Project Glasswing 的合作伙伴,理由是其在网络安全漏洞发现方面能力过强。该模型已发现数千个高危漏洞,包括各大操作系统和浏览器中的问题。多位安全专家证实,AI 在漏洞研究方面已取得质的飞跃,引发行业关注。