令牌扭曲助力多模态大模型实现近视角推理
深度2026年4月3日30 分钟阅读
研究发现反向令牌扭曲能有效保持语义连贯性,使多模态大语言模型可靠理解邻近视角的场景表现。计算机视觉研究者、多模态模型开发者及认知科学交叉领域学者可通过本文了解视角不变性研究的最新进展。
本文编译自 Token Warping Helps MLLMs Look from Nearby Viewpoints,版权归原作者所有。
觉得有用?分享给更多人
觉得有用?分享给更多人
本文提出Mega-ASR框架,通过构建包含54种复合声学场景的Voices-in-the-Wild-2M数据集,结合渐进式声学到语义优化和双粒度WER门控策略,在复杂噪声环境下相对词错误率降低超30%。该方法突破了现有模型在真实世界中的声学鲁棒性瓶颈。
本文发现RLVR训练的权重轨迹是低秩且可预测的,秩一近似即可捕获大部分性能增益。基于此提出RELEX方法,通过短窗口观测估计秩一子空间,并用线性回归外推未来检查点,仅需15%的训练步数即可匹配或超越完整RLVR性能。该方法能外推到观测窗口的10-20倍以上,且无需学习模型,归功于秩一投影的降噪效应。