Rime 语音模型登陆 Together AI
.png)
一个语音智能体(Voice Agent)即使回答正确,体验也可能很糟糕。客户会像接电话一样评判它:如果它犹豫不决、听起来像合成的,或者念错关键术语,信任感在评估其推理能力之前就崩塌了。在生产环境中,这种体验取决于一个实时循环:STT(语音转文本)模型转录语音,LLM 决定说什么,TTS(文本转语音)说出回复。在规模化场景下,团队通常需要将不同供应商的服务拼接起来,导致延迟、可靠性、可观测性乃至最终客户听到的内容都难以进行端到端管理。
从今天起,在 AI Native Cloud 平台 Together AI 上,我们将在 Together Model Library 中新增 Rime Arcana v2 和 Mist v2 模型。这意味着你可以将专有的 TTS 模型与你已用于 LLM 和语音工作负载的同一套 API、身份验证和可观测性界面集成。Arcana v2 提供富有表现力、对话式的语音,其训练数据源自真实的客户服务互动,包含 40 多种跨多种语言和地区方言的语音,适用于对质量要求苛刻的场景。Mist v2 则为高吞吐量生产环境带来了确定性发音控制,在 Together AI 专用端点上,首次音频生成时间(Time-to-First-Audio)约为 225 毫秒——你可以通过 API 一次性定义某个术语的发音,它将在所有语音、流程和渠道中保持一致渲染。两款模型都作为专用端点运行在同一个云平台上,与你的 LLM 和 STT 工作负载共置,这样你的端到端语音技术栈就能在一个生产平台上运行,而无需分散在多个供应商之间。
Arcana v2:为企业对话而生
Arcana v2 如今已从高增长初创公司部署到《财富》500 强企业,成为其生产基础设施的一部分。在这些环境中,客户报告了可量化的收益,包括:一家全国性连锁餐厅销售额提升 15%,一家电信供应商通话放弃率降低 75%,以及通话成功率提高 10%。
基于最大的专有全双工会话语音数据集训练
Arcana v2 的训练数据是真实对话,而非有声书、播客或配音。模型从生产对话中学习自然的呼吸、填充词、反馈提示和对话节奏。来电者能识别这些模式,从而更长时间地停留在自动化流程中,提高了完成率和留存率。
40 多种语音和地区方言
Arcana v2 提供超过 40 种语音,涵盖英语、西班牙语、法语和德语。英语包括 18 种语音,覆盖英式、澳大利亚和南美口音。西班牙语包括四种主要语音和三种双语语音。日常词汇会自动匹配本地用法。例如,“schedule”在英式英语中发音为“SHED-ule”,在美式英语中为“SKED-ule”。
Mist v2:生产规模的确定性发音
Mist v2 专为高吞吐量生产环境设计,在这些场景中,发音准确性必须在数百万次通话中得到保证。它已为每月数千万次的生产通话提供支持,应用于客户服务和 IVR 系统,其中停机或质量退化会直接影响收入和合规性。
确定性发音控制
大多数 TTS 模型每次生成时都会猜测发音。Mist v2 是确定性的。你通过 API 一次性定义单词的发音,该发音将在超过 40 种语音、流程和渠道中保持一致。无需重新训练,也无需针对每个供应商进行特殊处理。当你的智能体念错产品名、药品名或缩写时,你只需修正一次,修复就会应用到所有地方。Mist v2 的确定性发音配置功能现已通过我们的销售团队面向生产部署提供;联系销售 为你的环境启用此功能。
支持英语和西班牙语的进阶发音控制
Mist v2 支持英语和西班牙语,并提供确定性发音控制。你可以通过 API 指定品牌名、药品名或技术术语的发音,Mist 会在对话级延迟下一致地渲染它们。如果你需要在 Mist v2 中实现大规模的确定性发音,请联系销售为你的环境启用此功能。
规模化验证
Mist v2 每月在生产客户服务和 IVR 环境中处理数千万次通话。这些都是全面部署,而非有限试点,其中停机或质量退化会直接影响收入和合规性。
为对话式智能体提供生产级延迟
在 Together AI 专用端点上,Mist v2 的首次音频生成时间中位数(p50)约为 225 毫秒。语音智能体需要端到端总延迟低于 700 毫秒才能感觉像在对话,这意味着 TTS 必须足够快,为 STT 和 LLM 处理留出余量。当你在 Together AI 上将 Mist v2 与 LLM 和 STT 共置时,从语音识别到推理再到合成的整个流程都能保持在这个预算内,直接提高了完成率和用户满意度。
对话真实感
与 Arcana v2 一样,Mist v2 也基于真实的客户服务通话训练。它在保持生产级吞吐量的同时,保留了自然的填充词、反馈提示、呼吸模式和节奏。这使其适用于既需要真实感又需要响应速度的高吞吐量场景。
使用场景
全球联络中心
全球团队可以在同一环境中混合使用 Arcana v2 和 Mist v2。Arcana v2 处理质量关键型交互,如销售和复杂支持。Mist v2 处理高吞吐量流程,包括基本查询和 IVR 路由。你可以通过配置更改切换模型,并通过 Together AI 保持配置和可观测性的统一。
实时客户服务
高吞吐量支持流程需要 TTS 延迟低于 250 毫秒才能感觉像在对话,且端到端总流程(STT → LLM → TTS)需低于 700 毫秒。当在 Together AI 上与 LLM 和 STT 共置时,Mist v2 能满足这两个阈值,消除了多供应商网络开销,并将整个流程保持在单一环境中。
医疗保健语音智能体
药品名称如“lisinopril”、“atorvastatin”和“metformin”必须每次都发音正确。Mist v2 使用确定性发音,因此你只需定义这些术语一次,它们就能在 40 多种语音中正确渲染。运行在 Together AI 符合 HIPAA 标准的基础设施上,意味着一次合规审查即可覆盖整个语音技术栈。
语音银行
账号、路由号和产品名称需要在数百万次通话中清晰、一致地读出。Rime 的模型基于客户服务对话训练,专为这些高精度用例构建。在 Together AI 上,银行和金融机构可以将 Rime 的 TTS 模型部署在符合 SOC 2 Type II 和 PCI 标准的基础设施上,满足其监管要求。
Together AI 上的生产基础设施
两款 Rime 模型均在 Together AI 专用端点上运行,使用隔离的 GPU 资源,与 LLM 和 STT 工作负载共置。Together AI 在单一平台上提供最广泛的 TTS 模型目录,从 Orpheus 和 Kokoro 等开源模型,到 Rime 这样的精英专有模型,全部配备统一的工具链。
该平台专为生产级 AI 构建,具备:
基础设施
- ✔ 专用 GPU 资源,工作负载隔离
- ✔ 99.9% 正常运行时间 SLA
- ✔ SOC 2 Type II、HIPAA 就绪、PCI 合规
- ✔ 全球数据中心
- ✔ WebSocket 流式输出支持
- ✔ 零数据保留,完全的数据所有权和控制权
开发者体验
- ✔ 与 LLM 和 STT 端点相同的 SDK 和身份验证
- ✔ Arcana v2 和 Mist v2 统一的发音 API
- ✔ 整个语音流程的单一可观测性和日志记录界面
- ✔ 通过配置进行模型选择和切换
- ✔ 提供专业语音克隆服务
- ✔ 支持高吞吐量工作流的批量处理
开始使用
觉得有用?分享给更多人