论文

AI 前沿论文中文翻译与导读，覆盖智能体、多模态、具身智能等方向

ThoughtTrace：揭示用户在与LLM交互时的真实想法

ThoughtTrace是首个大规模数据集，记录了用户与AI对话中的自述想法（发送提示的原因及对回复的反应），包含1,058名用户、2,155次对话及10,174条想法标注。分析表明，想法与消息语义不同，大模型难以从上下文推断，并能提升用户行为预测和个性化助手训练质量。该数据集为理解人机交互中的认知动态提供了新模态。

深度·5月22日·21 分钟

利用技能程序驾驭LLM智能体

本文提出HASP框架，将智能体技能升级为可执行程序函数，在推理时或训练后主动干预智能体循环。在网页搜索、数学推理和编程任务上，HASP相比现有方法提升25%-30%性能，揭示了技能内化与稳定演化的机制。

深度·5月22日·20 分钟

交互式评估需要设计科学

本文论证了交互式评估应被视为一种原则性的评估范式，而非仅仅是一类新的智能体基准。作者通过将评估定义为从证据到判断的自主映射，揭示了交互式评估如何改变了证据和评估过程两个方面，并提出了双轴分类法、设计原则和报告标准。这项工作有助于系统化碎片化的交互式评估实践，推动AI评估方法的发展。

深度·5月22日·38 分钟

OScaR：KV缓存极端量化的奥卡姆剃刀

OScaR通过识别并解决Token范数不平衡（TNI）问题，提出了一种轻量级的KV缓存压缩框架，在INT2量化下实现了近无损性能。相比BF16基线，OScaR在解码速度上提升3.0倍，内存占用减少5.3倍，吞吐量增加4.1倍，为长上下文推理提供了高效的通用方案。

深度·5月22日·32 分钟

主动学习实现高效PRP重排序

本文提出将成对排序提示（PRP）重排序重新定义为从含噪成对比较中进行主动学习的问题，并引入随机方向查询来消除位置偏差。实验表明，该方法在调用受限场景下显著提升了NDCG@10，且可直接替代现有排序器。

深度·5月21日·10 分钟

代理计划执行流水线中的时序语义缓存与工作流优化评估

本研究针对工业资产运维场景中的代理计划执行流水线，提出时序语义缓存与MCP工作流优化（包括磁盘缓存与依赖感知并行执行）两种方案。实验表明，工作流优化实现1.67倍加速、延迟降低40%，而时序语义缓存在命中时达到30.6倍加速，并揭示了纯语义缓存在参数密集查询下的失效模式。该工作为工业代理基准测试中的缓存策略设计提供了关键分析。

深度·5月21日·20 分钟

视觉主导下的伪音频理解：多模态大模型的Clever Hans效应

该研究揭示了视频多模态大语言模型（MLLMs）在音频理解上的视觉依赖问题，即模型仅通过视觉线索“听”声音，而非真正处理音频。为系统诊断此缺陷，作者提出Thud框架，通过三种反事实音频编辑（移位、静音、交换）进行探测，并设计两阶段对齐策略，仅用1万样本将干预测试性能提升28个百分点。该工作为构建真正多模态理解模型提供了诊断工具和解决方案。

深度·5月21日·19 分钟

ChatVis：LLM代理生成科学可视化

ChatVis利用大语言模型辅助生成ParaView科学可视化的Python代码，无需微调模型。通过链式思维提示简化、检索增强生成和迭代错误反馈，显著提升了代码生成成功率。

深度·5月20日·40 分钟

AgentTTS：面向复杂任务测试时计算最优扩缩的智能体框架

本文提出AgentTTS，一个基于LLM智能体的框架，用于在多阶段复杂任务中实现测试时计算最优分配。通过迭代反馈驱动搜索，AgentTTS能自动选择合适模型并分配预算，显著提升搜索效率与鲁棒性，优于传统和基于LLM的基线方法。

深度·5月20日·28 分钟

大型语言模型智能体实现药物发现模块化任务执行

该工作提出一个由大语言模型驱动的模块化框架，自动执行早期计算药物发现中的关键任务，包括数据检索、分子生成、多性质预测和三维结构生成。在两个优化轮次中，满足QED>0.6的分子从34增至55，满足Ghose过滤器的分子从32增至55，展示了该框架在分子筛选和优先排序中的有效性。

深度·5月20日·41 分钟

大模型代理赋能化工流程模拟

研究人员将大型语言模型代理与AVEVA流程模拟软件通过模型上下文协议集成，实现自然语言驱动的化工流程模拟。案例表明，该框架能自主分析流程、优化改进并解释技术概念，显著降低专业软件使用门槛。

深度·5月20日·49 分钟

生成器-助手逐步回滚框架：纠偏大模型智能体推理

本文提出生成器-助手逐步回滚（GA-Rollback）框架，解决大语言模型智能体逐步推理中错误不可逆累积的问题。该框架通过助手实时检测生成器动作，发现错误即触发回滚，并引入两种针对性策略提升效果。在三个标准基准上，GA-Rollback显著优于强基线，且可作为即插即用模块与现有方法无缝集成。

深度·5月20日·22 分钟