Together AI 首发 NVIDIA Nemotron 3 Super

指南2026年3月11日3 分钟阅读
Together AI 首发 NVIDIA Nemotron 3 Super
NVIDIA 专为多智能体编排设计的 120B 参数混合模型 Nemotron 3 Super,已在 Together AI Dedicated Inference 上线。它具备 100 万 token 上下文窗口,并支持在单 GPU 上进行生产级部署。

NVIDIA 专为多智能体编排和复杂推理设计的 Nemotron 3 Super 模型,现已登陆 Together AI 平台。这是一个 120B 参数(激活参数 12B)的混合模型,结合了 Transformer 和 Mamba 架构。

通过 Together AI Dedicated Inference 运行该模型,工程团队可以将这个开放权重的模型部署在专为高吞吐推理工作负载设计的托管基础设施上。

面向智能体工作流的架构能力

现代智能体系统需要分析海量文档库或编排多步骤规划,这就要求模型能在长上下文中保持状态,同时不牺牲生成速度。Nemotron 3 Super 引入了几项架构创新,使其非常适合这类工作负载:

  • 混合 MoE 架构(Transformer + Mamba):通过将 Mamba 的高效序列处理能力与 Transformer 注意力机制结合,模型在保持强大推理能力的同时,将激活参数(120B 中的 12B)控制在可管理范围,以实现更快的推理。其潜在 MoE(Latent MoE)设计使模型能以调用一个专家的成本调用四个专家,提升了推理密集型工作负载的效率。
  • 100 万 Token 上下文窗口:100 万 token 的上下文长度允许应用程序处理整个代码库、在长智能体轨迹中保持状态,并将显著更大的检索负载直接注入提示词。
  • 多 Token 预测:Nemotron 3 Super 经过训练,可在单次前向传递中同时生成多个 token。对于代码生成或结构化响应等产生大量输出的应用,这大大降低了生成延迟,与当前领先的开源模型相比,token 生成速度提升了 50% 以上。

为了在 AIME 2025 和 SWE Bench verified 等基准测试中达到领先的准确率,该模型使用了多环境强化学习(RL)和 NVIDIA 生成的高质量合成数据进行训练。由于 NVIDIA 提供了开放的模型权重、数据集和开发配方,工程团队可以完全控制,针对其特定环境进行定制和微调。

在 Together AI 上运行 Nemotron 3 Super

部署一个拥有 100 万 token 上下文窗口的 120B 参数混合模型,通常需要跨多个节点的分布式计算。Nemotron 3 Super 通过 Together AI Dedicated Inference 提供,该基础设施环境专为实验和生产规模设计,无需 GPU 配置的额外开销:

  • 单 GPU 部署:该模型经过优化,可在单个 GPU 上运行协作智能体,支持在单个 NVIDIA H200 或 H100 GPU 上部署。Together AI 处理底层基础设施编排,让团队无需直接配置或管理 GPU 即可部署这些工作负载。
  • 研究优化性能:高效运行混合 MoE 架构需要高度优化的服务软件。Together AI 通过 Together Inference Engine 和自定义 CUDA 内核加速模型执行。这套技术栈帮助团队在实时推理期间实现更低的延迟和更高的吞吐量。
  • 生产级隔离:Dedicated Inference 将工作负载隔离在预留硬件上,以支持可预测的吞吐量和规模化下的稳定性能。该平台运行在企业级就绪的基础设施上,包括 99.9% 的正常运行时间 SLA 和 SOC 2 合规性。

开始使用

开发者今天就可以开始在 Together AI 上使用 Nemotron 3 Super 进行构建。

运行大上下文推理工作负载,部署多智能体系统,并扩展生产参考,而无需管理 GPU 基础设施。

常见问题解答

什么是 NVIDIA Nemotron 3 Super?

NVIDIA Nemotron 3 Super 是一个专为复杂 AI 工作流和多步骤问题解决设计的混合专家(MoE)推理模型。它结合了 Transformer 和 Mamba 组件,以高效推理提供强大的推理能力。

Nemotron 3 Super 使用什么架构?

Nemotron 3 Super 使用混合专家架构,结合了 Transformer 注意力机制和 Mamba 序列处理。这种设计在保持强大推理性能的同时提高了计算效率。

Nemotron 3 Super 支持多长的上下文?

Nemotron 3 Super 支持高达 100 万 token 的上下文窗口,使应用程序能够分析大型文档集合、维持长对话,并将广泛的检索上下文纳入推理工作流。

哪些类型的应用可以使用 Nemotron 3 Super?

Nemotron 3 Super 非常适合协调多个智能体或跨大型知识源操作的应用程序。例如:分析和重构代码库的开发助手、处理大型文档集合的企业系统、分类漏洞或分析系统日志的网络安全工作流,以及根据用户意图在专业智能体之间路由任务的编排系统。

开发者如何在 Together AI 上运行 Nemotron 3 Super?

Nemotron 3 Super 通过 Dedicated Model Inference 在 Together AI 上部署。专用部署允许团队在为生产工作负载设计的预留基础设施上运行模型,并获得可预测的性能。

开发者需要管理 GPU 吗?

不需要。Together AI 管理底层基础设施,允许开发者无需直接配置 GPU 资源即可部署和扩展 AI 工作负载。

为什么使用 Together AI 处理这些工作负载?

Together AI 提供专为大规模 AI 系统设计的基础设施,包括可靠的推理、无服务器扩展以及面向现代 AI 应用的托管基础设施。

本文编译自 Together AI Brings NVIDIA Nemotron 3 to Developers on Day 0,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论