Together AI 推出最快实时语音 AI 栈
.jpeg)
语音交互是真正 AI 原生应用的核心特征。从转录、语音转代码到外呼电话和定制播客,语音让应用更吸引人、更高效。但开发者通常需要拼凑多个专门的语音服务才能上线一个语音应用,这往往会拖慢开发进度,同时增加复杂度、延迟和成本。
我们很高兴宣布,Together AI 云平台新增了一套高性能、低延迟的语音基础设施。我们努力提供前沿质量、开发者友好且延迟极低的语音服务。
通过这些新增功能,我们的语音服务已从单纯的转录扩展为一整套构建块,可以支持应用语音管道的部分或全部环节。这些服务支持实时和批处理模式,提供开发者友好的无服务器和专用部署选项。
流式语音转文本,专为语音代理设计
传统的批量转录需要等待完整的音频文件。语音代理需要实时处理语音流,并智能检测用户何时说完。
我们通过优化模型推理和智能系统设计,构建了行业最快的语音转文本 API——采用 WebSocket 流式传输消除连接开销,精心调校的语音活动检测(VAD),以及专为实时音频处理打造的基础设施。结果是:实时运行的 Whisper 模型,质量损失最小,转录完成速度比竞品快 35%。
关键在于优化“完成转录时间”,而不仅仅是“首词时间”。语音代理需要精确知道用户何时停止说话,以便开始生成回复。我们的 VAD 调校确保你的代理在正确时刻响应,不会太早(打断用户)或太晚(造成冷场)。
文本转语音:无服务器开源模型
Together AI 是首个提供无服务器开源文本转语音模型的云平台。不再需要为偶发的 TTS 需求启动专用实例——两款模型都可通过 REST API 进行批量生成,通过 WebSocket API 进行实时流式传输。
Orpheus TTS:自然语音质量
Orpheus 提供自然、富有表现力的语音,支持多种音色选项,适合面向客户的应用。首字节时间仅 187 毫秒,超越了高端商业服务商,接近轻量级模型的速度。结果是:专业级语音质量,同时满足语音代理所需的响应速度。
Kokoro TTS:极致速度
当每一毫秒都至关重要时,Kokoro 登场。基线首字节时间仅 97 毫秒,专为响应速度优先的应用打造。这种可预测的性能使其非常适合高并发语音代理部署,其中成本和延迟是关键考量。
新增音频转录功能
两项新功能扩展了我们的音频转录 API,支持批处理工作流:
Voxtral Mini
Voxtral Mini 是 Mistral AI 推出的高精度转录模型,针对欧洲语言和复杂音频条件优化。相比标准 Whisper,Voxtral 的词错误率显著降低——适合转录错误可能导致责任或操作负担的应用场景。
说话人分离
自动识别并标记录音中的不同说话人。将原始转录转换为结构化对话,显示谁在何时说了什么——这对于会议转录、呼叫中心质量保证和多方对话复盘至关重要。
为生产级语音代理打造
三项架构决策使 Together AI 的音频基础设施特别适合生产级语音代理:
延迟:实现自然对话的响应时间
人类对话有其特定节奏。响应时间超过 500 毫秒就会感觉不自然。超过 2 秒,用户会认为系统已失效。每增加 100 毫秒延迟,都会显著降低用户满意度和任务完成率。
我们的基础设施在每一层消除不必要的延迟。WebSocket 连接保持活跃,避免 TCP 握手开销。模型与你的 LLM 运行在同一 GPU 集群上,消除跨提供商网络延迟。最重要的是,我们的优化服务即使在流量高峰期间也能提供稳定的亚 200 毫秒 TTS 和毫秒级精确保转录。
实际影响:当客户打电话更改航班时,每延迟一秒都会增加他们挂断的概率。语音代理必须在人类对话的自然节奏内捕获请求、处理并开始响应。
质量:准确转录与自然语音
语音代理失败往往源于转录错误在对话中累积。听错的账号会导致查询失败,听不清的产品名会触发错误工作流。糟糕的语音质量会立即传递“廉价自动化”的信号,无论底层智能如何。
因此我们提供多个质量层级。流式 Whisper 处理实时转录,精度足以支持自然对话。当精度至关重要时——如法律取证、医疗咨询、金融交易——Voxtral 的卓越精度值得其溢价。在输出侧,Orpheus 提供用户期望的专业服务自然语音,而 Kokoro 则为高并发信息类用例提供清晰高效的语音。
以医疗预约机器人为例:它必须准确捕获药品名称,理解带口音的语音,并以恰当的共情回应。任何环节的质量失败都会破坏用户信任,导致昂贵的人工介入。
扩展性:生产负载下的稳定性能
演示表现良好但在生产负载下失败的语音基础设施会造成信任问题。在高峰时段体验服务降级的用户会学会避开该系统。
我们的基础设施在负载增加时保持性能稳定。WebSocket 实现中的独特优化允许通过单个连接复用多个对话——这对于像呼叫中心软件这样处理数百个同时通话的平台至关重要。无需管理数千个独立的 WebSocket 连接(及其相关的内存和网络开销),你可以通过共享连接高效路由多个隔离的音频流。
这种扩展方法贯穿我们的技术栈。地理分布确保无论用户身在何处都能获得低延迟。自动扩缩容处理流量高峰,无需人工干预。结果是:语音代理在处理 10 个或 10,000 个并发对话时表现一致。
立即试用
from together import Together
import asyncio
client = Together()
async def handle_conversation():
# Listen to user input
transcription = client.audio.transcriptions.create(
model="whisper-large-v3",
file=audio_stream,
language="en"
)
# Generate response while monitoring for interruptions
async with client.audio.speech.create(
model="canopylabs/orpheus-3b-0.1-ft",
input="I can help with that-",
voice="tara"
) as tts:
audio_playback = asyncio.create_task(play_audio(tts))
# Simultaneously monitor for user interruptions
async for chunk in transcription:
if "wait" in chunk.text.lower() or "actually" in chunk.text.lower():
audio_playback.cancel()
# Adapt to new user input
break
开始使用:
- Playground:构建前测试音频模型
- 语音转文本文档:完整的转录 API 参考
- 文本转语音文档:完整的语音生成 API 参考
- 模型库:完整的模型规格
生产部署:
联系销售团队获取企业选项和专用基础设施。
觉得有用?分享给更多人