Deepgram 语音模型原生集成 Together AI

Deepgram 的生产级语音转文本(STT)和文本转语音(TTS)模型现已原生运行在 Together AI 的专用模型推理平台上,专为实时语音智能体设计。
- Deepgram 的 Nova-3、Nova-3 Multilingual、Flux 和 Aura-2 模型现可在 Together AI 上原生运行
- Deepgram 的模型阵容覆盖了语音管道的两端,从转录到合成
- Together AI 为团队提供了一个统一的生产平台,将 STT、LLM 和 TTS 整合在一起
- 企业级控制包括零数据保留、SOC 2 Type II 认证、HIPAA 就绪支持和数据驻留选项
实时语音智能体常常失败,因为语音被当作转录而非对话处理。准确识别词语只是挑战的一部分:系统还需要检测对话轮次边界、处理打断和重叠,并快速响应以保持交流的自然感。当团队试图用端点检测逻辑、路由层和额外供应商来填补这些缺口时,往往会重新引入延迟和运维脆弱性。Deepgram 的模型正是为这一层设计的,其中转录、对话轮次和响应能力必须在实时中协同工作。
Deepgram 的 STT 和 TTS 模型阵容现已在 Together AI 上原生运行,这是一个为构建实时语音智能体而设计的 AI 原生云平台。团队可以将 Deepgram 的转录和合成与 Together 目录中的任何 LLM 配对,并在一个生产平台上运行完整的语音管道。关于更广泛的架构,请参阅我们的实时语音智能体公告。
“语音智能体的生死取决于延迟,供应商之间的每一次网络跳转都是体验崩溃的地方。通过在 Together AI 的基础设施上原生托管 Deepgram 的 STT 和 TTS,我们为开发者提供了生产级转录,而无需妥协。快速、准确,并与管道的其余部分共置。”
- Abe Pursell, Deepgram 合作伙伴关系副总裁
Flux:带对话检测的会话 STT
准确转录只是工作的一部分。语音智能体还需要知道说话者何时真正结束,因为如果误读对话轮次,它要么会打断呼叫者,要么等待太久而显得反应迟钝。
Flux 是 Deepgram 为实时智能体设计的会话 STT 模型,不仅用于转录语音,还根据对话上下文而非仅凭静默来生成对话轮次信号。这一点很重要,因为许多团队仍依赖额外的端点检测逻辑来弥合这一差距,这增加了复杂性并使延迟更难控制。Flux 简化了堆栈的这一部分,并通过 250 毫秒的对话结束检测,帮助在生产中保持对话轮次更可预测。
Nova-3:面向真实世界音频的生产转录
生产音频比基准测试音频更混乱。通话带有背景噪音、重叠的说话者、口音、电话压缩和打断,模型仍需返回管道其余部分可以信任的文本。Nova-3 专为这些条件而构建,支持词汇定制,使团队无需重新训练即可提高对领域特定术语的识别能力。
Nova-3 Multilingual 将这种方法扩展到多种语言,这在呼叫者在对话中切换语言的部署中尤为重要。
Aura-2:面向生产语音智能体的企业 TTS
Aura-2 覆盖了管道中合成的一端,适用于清晰度和一致性至关重要的商业环境。团队可以同时使用 Deepgram 的 STT 和 TTS,同时保持对领域特定术语和结构化实体的输出稳定。
这种差异体现在交付中。当向用户回读结构化信息或专业语言时,语音必须保持清晰、直接和可靠。在演示中听起来不错的语音是不够的,一旦交互变得操作化,它就开始结巴。
使用案例
客服中心语音智能体
客服中心本质上是混乱的环境。通话质量参差不齐,说话者重叠,打断不断,延迟仍需保持在足够低的水平以支持自然来回交流。Deepgram 的模型帮助智能体在这些条件下保持流畅,使对话保持响应性和可理解性,而不是让它们因延迟、错过轮次或不清晰响应而崩溃。
医疗保健语音智能体
医疗保健语音智能体需要准确转录药物名称、程序术语和临床语言,并在向患者回读相同术语时保持输出清晰。管道开始时的转录错误可能后来表现为流畅但不正确的响应,这正是这些系统无法承受的失败类型。Nova-3 帮助团队适应临床语言的识别,而 Aura-2 保持面向患者的输出清晰一致。
金融服务
金融语音系统依赖于精确性。账号、路由号码、交易确认和结构化金融语言需要第一次就正确捕获,因为单个转录错误可能导致交易失败、合规问题或客户交互中断。Deepgram 的语音模型为这些受监管的工作流提供了更坚实的基础。
多语言客户支持
全球支持团队需要语音模型,在呼叫者在同一交互中切换语言和口音时仍能保持稳定。Nova-3 Multilingual 帮助团队服务这些对话,而无需为每个市场构建单独的 STT 管道,这使得多语言支持更容易扩展和操作。
在 Together AI 上的生产基础设施
Deepgram 模型在 Together AI 的专用模型推理平台上运行,与 LLM 和 TTS 工作负载共享隔离容量。将转录、推理和合成保持在相同的生产环境中,使实时系统更易于操作,并为团队在扩展时提供更严格的性能控制。
Together AI 是用于生产推理的 AI 原生云,专用模型推理为团队提供了运行大规模语音智能体所需的控制和可靠性。
基础设施
- 专用 GPU 容量,工作负载隔离
- 99.9% 正常运行时间 SLA
- SOC 2 Type II 和 HIPAA 就绪支持,适用时提供 PCI 支持
- 全球区域,提供数据驻留选项
开发者体验
- 跨 LLM、STT 和 TTS 端点的相同 SDK 和身份验证
- 语音管道的统一可观测性和日志记录表面
- 通过配置进行模型选择和交换
- 跨堆栈的统一计费表面
Together AI 在一个地方支持广泛的语音目录,使团队可以跨管道混合匹配,而无需增加供应商。这包括与驱动智能体推理的 LLM 一起部署的开源和专有模型。
开始使用
8S
DeepSeek R1

Premium cinematic video generation with native audio and lifelike physics.
DeepSeek R1
8S
音频名称
音频描述
0:00
原生音频与逼真物理效果加持的优质电影级视频生成。
8S
DeepSeek R1

原生音频与逼真物理效果加持的优质电影级视频生成。
性能与规模
正文内容占位符 lorem ipsum dolor sit amet
- 要点占位符 lorem ipsum
- 要点占位符 lorem ipsum
- 要点占位符 lorem ipsum
基础设施
最佳适用场景
- 更快的处理速度(降低整体查询延迟)和更低的运营成本
- 执行定义明确、直接的任务
- 函数调用(Function Calling)、JSON 模式或其他结构化良好的任务
列表项 #1
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
- Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
列表项 #1
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
构建
包含的福利:
- ✔ 最高 1.5 万美元的平台免费额度*
- ✔ 3 小时免费的前向部署工程时间。
融资:少于 500 万美元
构建
包含的福利:
- ✔ 最高 1.5 万美元的平台免费额度*
- ✔ 3 小时免费的前向部署工程时间。
融资:少于 500 万美元
构建
包含的福利:
- ✔ 最高 1.5 万美元的平台免费额度*
- ✔ 3 小时免费的前向部署工程时间。
融资:少于 500 万美元
觉得有用?分享给更多人