Together AI 在 GTC 2026 发布推理、智能体与语音 AI 新品

指南2026年3月16日3 分钟阅读
Together AI 在 GTC 2026 发布推理、智能体与语音 AI 新品
Together AI 在 NVIDIA GTC 2026 上推出多项新品,涵盖推理优化、智能体工作流和实时语音 AI。团队还将在会议期间分享生产级推理和开源 AI 研究的最新实践。

3 月 16 日至 19 日,Together AI 将在圣何塞的 NVIDIA GTC 大会上展示其在开源大语言模型(LLM)、语音 AI、生产级推理和 AI 工厂方面的最新研究突破和平台能力。

今年,Together AI 将参与 GTC 的多项重要发布和讨论,从尖端模型发布到新的语音 AI 能力,再到与研究和工程负责人的技术分享。

核心发布

GTC 2026 上的发布突显了一个核心主题:AI 系统正变得更加开放、智能体化(Agentic)并准备好投入生产。 Together AI 的 AI Native Cloud 旨在支持这一转变,帮助开发者以生产应用所需的性能和成本效益训练、塑造和部署大规模 AI 系统。

在 Together AI 中使用 NVIDIA Dynamo 1.0

NVIDIA 发布了 NVIDIA Dynamo 1.0,这是一个用于大规模生成式和智能体推理的开源软件。Together AI 很高兴与 NVIDIA 在 Dynamo 1.0 上合作,并已将其作为推理堆栈的一部分,在生产用例中提供更优化的性能。Together AI 致力于开放创新,期待探索 Dynamo 1.0 的应用场景。

通过 NVIDIA OpenShell 连接 Together 的高性能推理

Together AI 和 NVIDIA 正在合作开发 NVIDIA NemoClaw —— 一个开源堆栈,只需一条命令就能更安全地简化运行 OpenClaw 常驻助手。作为 NVIDIA Agent Toolkit 的一部分,它安装了 NVIDIA OpenShell 运行时——一个运行自主智能体和开源模型(如 NVIDIA Nemotron)的安全环境。Together 很高兴托管专为需要高性能模型构建智能体的客户创建的 NVIDIA OpenShell 运行时。Together AI 拥有一个包含 150 多个优化模型的模型库,现在可以通过 NemoClaw 轻松访问。结合 Together 的专用端点,开发者可以在生产规模上获得其推理引擎的速度和成本效益。

利用 NVIDIA Nemotron 3 Super 实现多智能体工作流

NVIDIA Nemotron 3 Super 是一个专为高性能推理和多智能体工作流设计的混合专家模型(Mixture-of-Experts)。它结合了 Mamba-Transformer 架构和 1M Token 的上下文窗口(Context Window),以支持长程推理和复杂的智能体交互。该模型拥有 1200 亿总参数(每个 Token 激活 120 亿),经过优化,可以高效运行多个协作智能体——即使在单个 GPU 上——使其非常适合软件开发智能体、金融分析和网络安全自动化等 AI 原生工作流。Nemotron 3 Super 可以通过我们的专用模型推理进行部署,为开发者提供一种简单且可扩展的方式在生产中运行高级推理模型。

使用 NVIDIA Parakeet TDT 0.6B V3 构建语音智能体

作为我们近期语音解决方案发布的一部分,NVIDIA Parakeet TDT 0.6b V3 自动语音识别(ASR)模型现已上线 Together AI 模型库,让开发者能够访问为实时语音应用优化的高性能、低延迟转录。通过将 Parakeet 的 ASR 准确性与 Together 的高性能推理基础设施相结合,AI 原生开发者可以构建生产就绪的语音智能体,提供快速、可靠且可扩展的转录服务。

Together AI 技术分享

Together AI 团队将与 Cursor、Decagon 等客户一起,在 GTC 的多场会议中分享见解,涵盖从生产推理到开源 AI 研究的主题。

会议包括:

欢迎莅临 1213 号展位

除了会议,Together 团队还将在整个星期举办展位活动和周边活动,包括专注于下一代 AI 基础设施和 AI 原生应用的精选高管交流会。

欢迎前来:

  • 观看 Together AI 基础设施和模型的现场演示
  • 了解团队如何扩展生产推理和智能体系统
  • 与构建开放 AI 模型和基础设施未来的研究人员和工程师交流

立即在 Together AI 无服务器端点上试用 Nemotron 模型: https://www.together.ai/models

了解更多并预约会议: https://www.together.ai/gtc-san-jose-2026

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论