论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

本文提出NUMINA框架，通过识别提示-布局不一致性并调制交叉注意力，提升文本到视频扩散模型生成对象数量的准确性。在CountBench测试中，NUMINA将计数准确率最高提升7.4%，同时保持时间一致性。该工作为无需训练的数字对齐提供了实用解决方案，推动了文本到视频生成的精确控制。

深度·4月9日·36 分钟

研究者提出了ClawBench评估框架，包含153个真实在线任务，覆盖144个生产网站。评估显示当前前沿模型仅能完成少量任务（如Claude Sonnet 4.6仅33.3%），该框架为AI智能体向通用助手发展提供了关键测试基准。

深度·4月9日·26 分钟

本文提出SkillClaw框架，通过聚合多用户交互轨迹实现LLM智能体技能的集体演化。该框架利用自主进化器识别行为模式并更新技能库，实验表明其在真实场景中显著提升Qwen3-Max的性能。该研究解决了现有系统无法将异构经验转化为可靠技能更新的关键问题，实现了跨用户知识传递与能力累积提升。

深度·4月9日·30 分钟

本文提出MegaStyle数据构建流程，利用大模型文本到图像风格映射能力，通过17万风格提示和40万内容提示组合生成了140万规模的MegaStyle-1.4M数据集。基于该数据集训练的风格编码器和风格迁移模型在实验中表现出色，为风格迁移领域提供了高质量数据基础。

深度·4月9日·37 分钟

本文从外部化视角系统回顾了LLM智能体架构的演进，提出记忆、技能和协议作为三种核心外化形式，并由工程框架统一协调。研究揭示了智能体进步不仅依赖更强模型，更需优化外部认知基础设施，为理解智能体系统设计提供了系统性框架。

深度·4月9日·135 分钟

腾讯团队推出了HY-Embodied-0.5系列具身基础模型，专为真实世界智能体设计。该模型采用混合Transformer架构增强视觉感知，通过迭代后训练提升推理能力，并在22个基准测试中表现优异。这一工作填补了通用视觉语言模型与具身智能需求之间的空白，为机器人控制等应用提供了强大基础。

深度·4月8日·65 分钟

本研究重新审视了LLM推理监督微调中的泛化问题，发现跨领域泛化并非缺失而是有条件的，受优化动态、训练数据和基础模型能力共同影响。研究发现：短训练会低估泛化能力，高质量长思维链数据能提升泛化，强模型能学习可迁移推理模式。这一发现挑战了“SFT仅记忆而RL才泛化”的主流观点。

深度·4月8日·18 分钟

本文提出目标策略优化（TPO）方法，将强化学习中的策略更新分解为两个独立问题：确定哪些完成应获得概率质量，以及如何调整参数实现这一变化。TPO通过构造目标分布并使用交叉熵拟合策略，在稀疏奖励任务中显著优于传统策略梯度方法。该方法为强化学习提供了更稳定高效的优化框架。

深度·4月7日·40 分钟

本文提出Claw-Eval评估套件，通过轨迹感知评分、多模态任务覆盖和细粒度安全评估，解决了现有智能体评测的三个关键局限。实验发现轨迹不透明的评估会遗漏44%的安全违规，而多模态性能在不同模型间差异显著。该工作为构建可靠、可部署的自主智能体提供了系统化评估基准。

深度·4月7日·32 分钟

本文发现强化学习训练多轮LLM智能体时，即使熵值稳定，模型仍可能依赖固定模板，出现“模板崩溃”现象。作者提出将推理质量分解为输入内多样性和输入间区分度，引入互信息代理进行在线诊断，并提出基于信噪比的过滤方法提升任务性能。该研究揭示了现有稳定性指标的盲区，为智能体推理质量评估提供了新视角。

深度·4月7日·45 分钟

本文针对工具集成推理场景中现有效率指标无法反映真实推理延迟的问题，提出了硬件感知的PTE效率度量方法。实验验证表明PTE比标准token计数更符合实际延迟，并识别出四种低效模式。该研究为优化工具集成推理系统提供了新的评估框架和效率洞察。

深度·4月7日·19 分钟

研究团队开发了DISCO多模态模型，能够围绕任意生物分子共同设计蛋白质序列和三维结构。该模型仅以反应中间体为条件，成功设计了具有新颖活性位点几何结构的新型血红素酶，催化了自然界前所未有的卡宾转移反应，活性超过工程酶。这项工作为可进化酶提供了可扩展路径，拓宽了基因可编码转化的潜在范围。

深度·4月6日·15 分钟