EgoSim:具身交互生成的自中心世界模拟器
深度2026年4月1日55 分钟阅读
这项研究最有趣的发现是:通过将3D场景建模为可更新的世界状态,EgoSim首次实现了在连续模拟中保持空间一致性并更新场景状态,解决了现有模拟器在视角变化下的结构漂移和静态场景限制问题。计算机视觉、机器人学和具身AI领域的研究人员应该阅读本文,特别是那些关注交互生成、3D场景理解和模拟器开发的研究者。
觉得有用?分享给更多人
觉得有用?分享给更多人
Greg Brockman 公开表示模型本身不再是产品,这是从“大模型团队”立场的重大反转。AI21 关闭模型团队、DeepSeek 首次组建 Harness 团队,行业正在从纯模型竞争转向模型+框架+工作流+UI+记忆+经济的全栈竞争。但这也可能意味着,通过联合训练模型与闭源框架来进一步收紧模型访问权限。
本文提出Mega-ASR框架,通过构建包含54种复合声学场景的Voices-in-the-Wild-2M数据集,结合渐进式声学到语义优化和双粒度WER门控策略,在复杂噪声环境下相对词错误率降低超30%。该方法突破了现有模型在真实世界中的声学鲁棒性瓶颈。