WildClawBench:真实长时智能体评估基准
深度2026年5月20日23 分钟阅读
最有趣的发现是,切换智能体框架(harness)可使同一模型的性能波动高达18个百分点,且当前最佳模型在真实长时任务上准确率仅62.2%。本文适合关注智能体评估、大模型应用部署及CLI工具开发的从业者与研究者阅读。
觉得有用?分享给更多人
觉得有用?分享给更多人
SANA-WM是一个仅26亿参数的开源世界模型,原生训练用于一分钟视频生成,在720p分辨率下合成高保真、分钟级视频,并支持精确相机控制。该模型仅使用约21.3万公开视频片段,在64块H100上训练15天,相比现有方法效率提升36倍,同时视觉质量可媲美大规模工业基线。
MemLens提出首个系统比较长上下文LVLMs和记忆增强代理的多模态记忆基准,包含789个问题覆盖五种记忆能力。研究发现长上下文模型在短上下文准确率高但随对话增长退化,而记忆代理长度稳定但视觉保真度下降,两者均未单独解决任务。