论文
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
AI 前沿论文中文翻译与导读,覆盖智能体、多模态、具身智能等方向
ThoughtTrace是首个大规模数据集,记录了用户与AI对话中的自述想法(发送提示的原因及对回复的反应),包含1,058名用户、2,155次对话及10,174条想法标注。分析表明,想法与消息语义不同,大模型难以从上下文推断,并能提升用户行为预测和个性化助手训练质量。该数据集为理解人机交互中的认知动态提供了新模态。
本文提出HASP框架,将智能体技能升级为可执行程序函数,在推理时或训练后主动干预智能体循环。在网页搜索、数学推理和编程任务上,HASP相比现有方法提升25%-30%性能,揭示了技能内化与稳定演化的机制。
本文论证了交互式评估应被视为一种原则性的评估范式,而非仅仅是一类新的智能体基准。作者通过将评估定义为从证据到判断的自主映射,揭示了交互式评估如何改变了证据和评估过程两个方面,并提出了双轴分类法、设计原则和报告标准。这项工作有助于系统化碎片化的交互式评估实践,推动AI评估方法的发展。
OScaR通过识别并解决Token范数不平衡(TNI)问题,提出了一种轻量级的KV缓存压缩框架,在INT2量化下实现了近无损性能。相比BF16基线,OScaR在解码速度上提升3.0倍,内存占用减少5.3倍,吞吐量增加4.1倍,为长上下文推理提供了高效的通用方案。
本文提出将成对排序提示(PRP)重排序重新定义为从含噪成对比较中进行主动学习的问题,并引入随机方向查询来消除位置偏差。实验表明,该方法在调用受限场景下显著提升了NDCG@10,且可直接替代现有排序器。
本研究针对工业资产运维场景中的代理计划执行流水线,提出时序语义缓存与MCP工作流优化(包括磁盘缓存与依赖感知并行执行)两种方案。实验表明,工作流优化实现1.67倍加速、延迟降低40%,而时序语义缓存在命中时达到30.6倍加速,并揭示了纯语义缓存在参数密集查询下的失效模式。该工作为工业代理基准测试中的缓存策略设计提供了关键分析。
该研究揭示了视频多模态大语言模型(MLLMs)在音频理解上的视觉依赖问题,即模型仅通过视觉线索“听”声音,而非真正处理音频。为系统诊断此缺陷,作者提出Thud框架,通过三种反事实音频编辑(移位、静音、交换)进行探测,并设计两阶段对齐策略,仅用1万样本将干预测试性能提升28个百分点。该工作为构建真正多模态理解模型提供了诊断工具和解决方案。
ChatVis利用大语言模型辅助生成ParaView科学可视化的Python代码,无需微调模型。通过链式思维提示简化、检索增强生成和迭代错误反馈,显著提升了代码生成成功率。
本文提出AgentTTS,一个基于LLM智能体的框架,用于在多阶段复杂任务中实现测试时计算最优分配。通过迭代反馈驱动搜索,AgentTTS能自动选择合适模型并分配预算,显著提升搜索效率与鲁棒性,优于传统和基于LLM的基线方法。
该工作提出一个由大语言模型驱动的模块化框架,自动执行早期计算药物发现中的关键任务,包括数据检索、分子生成、多性质预测和三维结构生成。在两个优化轮次中,满足QED>0.6的分子从34增至55,满足Ghose过滤器的分子从32增至55,展示了该框架在分子筛选和优先排序中的有效性。
研究人员将大型语言模型代理与AVEVA流程模拟软件通过模型上下文协议集成,实现自然语言驱动的化工流程模拟。案例表明,该框架能自主分析流程、优化改进并解释技术概念,显著降低专业软件使用门槛。
本文提出生成器-助手逐步回滚(GA-Rollback)框架,解决大语言模型智能体逐步推理中错误不可逆累积的问题。该框架通过助手实时检测生成器动作,发现错误即触发回滚,并引入两种针对性策略提升效果。在三个标准基准上,GA-Rollback显著优于强基线,且可作为即插即用模块与现有方法无缝集成。