NUMINA:文本到视频扩散模型中的数字对齐框架
深度2026年4月9日36 分钟阅读
研究发现通过选择判别性注意力头获取可计数潜在布局,可显著改善文本提示中数字与生成视频的对应关系。计算机视觉研究者、多模态生成模型开发者以及对视频生成精度有需求的应用工程师应阅读本文。
本文编译自 When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models,版权归原作者所有。
觉得有用?分享给更多人