NVIDIA Nemotron 3 Nano Omni:多模态长上下文模型,文、音、视全能
深度Hugging Face2026年4月28日6 分钟阅读
NVIDIA 发布 Nemotron 3 Nano Omni,一款支持文本、图像、视频和音频的全模态理解模型。该模型在文档分析、GUI 智能体、视频理解等多个基准测试上领先,同时推理速度提升最高 9 倍。
本文编译自 Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents,版权归原作者所有。
觉得有用?分享给更多人