Rime 语音模型登陆 Together AI

指南2025年12月18日5 分钟阅读
Rime 语音模型登陆 Together AI
Together AI 平台新增 Rime Arcana v2 和 Mist v2 两款企业级 TTS 模型。它们能与 LLM 和 STT 工作负载共置在专用基础设施上,已在数十亿次调用中验证。

一个语音智能体(Voice Agent)即使回答正确,体验也可能很糟糕。客户会像接电话一样评判它:如果它犹豫不决、听起来像合成的,或者念错关键术语,信任感在评估其推理能力之前就崩塌了。在生产环境中,这种体验取决于一个实时循环:STT(语音转文本)模型转录语音,LLM 决定说什么,TTS(文本转语音)说出回复。在规模化场景下,团队通常需要将不同供应商的服务拼接起来,导致延迟、可靠性、可观测性乃至最终客户听到的内容都难以进行端到端管理。

从今天起,在 AI Native Cloud 平台 Together AI 上,我们将在 Together Model Library 中新增 Rime Arcana v2Mist v2 模型。这意味着你可以将专有的 TTS 模型与你已用于 LLM 和语音工作负载的同一套 API、身份验证和可观测性界面集成。Arcana v2 提供富有表现力、对话式的语音,其训练数据源自真实的客户服务互动,包含 40 多种跨多种语言和地区方言的语音,适用于对质量要求苛刻的场景。Mist v2 则为高吞吐量生产环境带来了确定性发音控制,在 Together AI 专用端点上,首次音频生成时间(Time-to-First-Audio)约为 225 毫秒——你可以通过 API 一次性定义某个术语的发音,它将在所有语音、流程和渠道中保持一致渲染。两款模型都作为专用端点运行在同一个云平台上,与你的 LLM 和 STT 工作负载共置,这样你的端到端语音技术栈就能在一个生产平台上运行,而无需分散在多个供应商之间。

Arcana v2:为企业对话而生

Arcana v2 如今已从高增长初创公司部署到《财富》500 强企业,成为其生产基础设施的一部分。在这些环境中,客户报告了可量化的收益,包括:一家全国性连锁餐厅销售额提升 15%,一家电信供应商通话放弃率降低 75%,以及通话成功率提高 10%。

基于最大的专有全双工会话语音数据集训练

Arcana v2 的训练数据是真实对话,而非有声书、播客或配音。模型从生产对话中学习自然的呼吸、填充词、反馈提示和对话节奏。来电者能识别这些模式,从而更长时间地停留在自动化流程中,提高了完成率和留存率。

40 多种语音和地区方言

Arcana v2 提供超过 40 种语音,涵盖英语、西班牙语、法语和德语。英语包括 18 种语音,覆盖英式、澳大利亚和南美口音。西班牙语包括四种主要语音和三种双语语音。日常词汇会自动匹配本地用法。例如,“schedule”在英式英语中发音为“SHED-ule”,在美式英语中为“SKED-ule”。

Mist v2:生产规模的确定性发音

Mist v2 专为高吞吐量生产环境设计,在这些场景中,发音准确性必须在数百万次通话中得到保证。它已为每月数千万次的生产通话提供支持,应用于客户服务和 IVR 系统,其中停机或质量退化会直接影响收入和合规性。

确定性发音控制

大多数 TTS 模型每次生成时都会猜测发音。Mist v2 是确定性的。你通过 API 一次性定义单词的发音,该发音将在超过 40 种语音、流程和渠道中保持一致。无需重新训练,也无需针对每个供应商进行特殊处理。当你的智能体念错产品名、药品名或缩写时,你只需修正一次,修复就会应用到所有地方。Mist v2 的确定性发音配置功能现已通过我们的销售团队面向生产部署提供;联系销售 为你的环境启用此功能。

支持英语和西班牙语的进阶发音控制

Mist v2 支持英语和西班牙语,并提供确定性发音控制。你可以通过 API 指定品牌名、药品名或技术术语的发音,Mist 会在对话级延迟下一致地渲染它们。如果你需要在 Mist v2 中实现大规模的确定性发音,请联系销售为你的环境启用此功能。

规模化验证

Mist v2 每月在生产客户服务和 IVR 环境中处理数千万次通话。这些都是全面部署,而非有限试点,其中停机或质量退化会直接影响收入和合规性。

为对话式智能体提供生产级延迟

在 Together AI 专用端点上,Mist v2 的首次音频生成时间中位数(p50)约为 225 毫秒。语音智能体需要端到端总延迟低于 700 毫秒才能感觉像在对话,这意味着 TTS 必须足够快,为 STT 和 LLM 处理留出余量。当你在 Together AI 上将 Mist v2 与 LLM 和 STT 共置时,从语音识别到推理再到合成的整个流程都能保持在这个预算内,直接提高了完成率和用户满意度。

对话真实感

与 Arcana v2 一样,Mist v2 也基于真实的客户服务通话训练。它在保持生产级吞吐量的同时,保留了自然的填充词、反馈提示、呼吸模式和节奏。这使其适用于既需要真实感又需要响应速度的高吞吐量场景。

使用场景

全球联络中心

全球团队可以在同一环境中混合使用 Arcana v2 和 Mist v2。Arcana v2 处理质量关键型交互,如销售和复杂支持。Mist v2 处理高吞吐量流程,包括基本查询和 IVR 路由。你可以通过配置更改切换模型,并通过 Together AI 保持配置和可观测性的统一。

实时客户服务

高吞吐量支持流程需要 TTS 延迟低于 250 毫秒才能感觉像在对话,且端到端总流程(STT → LLM → TTS)需低于 700 毫秒。当在 Together AI 上与 LLM 和 STT 共置时,Mist v2 能满足这两个阈值,消除了多供应商网络开销,并将整个流程保持在单一环境中。

医疗保健语音智能体

药品名称如“lisinopril”、“atorvastatin”和“metformin”必须每次都发音正确。Mist v2 使用确定性发音,因此你只需定义这些术语一次,它们就能在 40 多种语音中正确渲染。运行在 Together AI 符合 HIPAA 标准的基础设施上,意味着一次合规审查即可覆盖整个语音技术栈。

语音银行

账号、路由号和产品名称需要在数百万次通话中清晰、一致地读出。Rime 的模型基于客户服务对话训练,专为这些高精度用例构建。在 Together AI 上,银行和金融机构可以将 Rime 的 TTS 模型部署在符合 SOC 2 Type II 和 PCI 标准的基础设施上,满足其监管要求。

Together AI 上的生产基础设施

两款 Rime 模型均在 Together AI 专用端点上运行,使用隔离的 GPU 资源,与 LLM 和 STT 工作负载共置。Together AI 在单一平台上提供最广泛的 TTS 模型目录,从 Orpheus 和 Kokoro 等开源模型,到 Rime 这样的精英专有模型,全部配备统一的工具链。

该平台专为生产级 AI 构建,具备:

基础设施

  • ✔ 专用 GPU 资源,工作负载隔离
  • ✔ 99.9% 正常运行时间 SLA
  • ✔ SOC 2 Type II、HIPAA 就绪、PCI 合规
  • ✔ 全球数据中心
  • ✔ WebSocket 流式输出支持
  • ✔ 零数据保留,完全的数据所有权和控制权

开发者体验

  • ✔ 与 LLM 和 STT 端点相同的 SDK 和身份验证
  • ✔ Arcana v2 和 Mist v2 统一的发音 API
  • ✔ 整个语音流程的单一可观测性和日志记录界面
  • ✔ 通过配置进行模型选择和切换
  • ✔ 提供专业语音克隆服务
  • ✔ 支持高吞吐量工作流的批量处理

开始使用

立即试用两款模型 → 阅读 TTS 文档联系销售 获取确定性发音控制、专用部署和批量定价

本文编译自 Rime voice models now available on Together AI,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论