Video-MME-v2：视频理解基准迈向新阶段

深度2026年4月6日38 分钟阅读

最有趣的发现是：当前最佳模型在复杂推理任务中仍远落后于人类，且错误会从底层视觉处理向上层推理传播。视频研究者、多模态AI开发者和基准设计者应该阅读本文，了解如何构建更严谨的视频评估体系。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

Vercel 每天路由超万亿 token，Coinbase 通过默认使用开源模型、任务路由和激进缓存将 AI 成本降低近一半。两者均采用模型网关作为控制平面，动态选择模型，并强调持续评估和可观测性的重要性。

深度The New Stack·7月7日·5 分钟

尽管开源模型使用量激增，前沿实验室的收入并未显著下降。两类模型分别主导“探索”和“生产”阶段，形成稳定的双层次经济结构。

深度·7月7日·4 分钟

相关文章