NUMINA：文本到视频扩散模型中的数字对齐框架

深度2026年4月9日36 分钟阅读

研究发现通过选择判别性注意力头获取可计数潜在布局，可显著改善文本提示中数字与生成视频的对应关系。计算机视觉研究者、多模态生成模型开发者以及对视频生成精度有需求的应用工程师应阅读本文。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

OpenAI 在 GPT 5.6 发布时宣布该模型将成为 Microsoft 365 Copilot 的首选模型，回应了此前关于双方关系疏远的传闻。但该声明并未否认 Microsoft 同时也在增加自研模型使用以削减成本的报道。

深度·7月10日·2 分钟

OpenAI 发布 GPT-5.6 系列，含 Sol、Terra、Luna 三款，主打编码效率与网络安全。Sol 在编码基准测试中超越 Anthropic Fable 5，且成本更低。同时推出面向企业团队的 ChatGPT Work 工具。

深度·7月9日·3 分钟

相关文章