Together AI 推出最快实时语音 AI 栈

指南2025年11月4日4 分钟阅读
Together AI 推出最快实时语音 AI 栈
Together AI 发布了全新的高性能语音基础设施,包括流式 Whisper 语音转文本、无服务器开源 TTS 模型 Orpheus 和 Kokoro,以及 Voxtral 转录。这套方案将语音 AI 代理的延迟降至亚秒级,适合生产环境部署。

语音交互是真正 AI 原生应用的核心特征。从转录、语音转代码到外呼电话和定制播客,语音让应用更吸引人、更高效。但开发者通常需要拼凑多个专门的语音服务才能上线一个语音应用,这往往会拖慢开发进度,同时增加复杂度、延迟和成本。

我们很高兴宣布,Together AI 云平台新增了一套高性能、低延迟的语音基础设施。我们努力提供前沿质量、开发者友好且延迟极低的语音服务。

通过这些新增功能,我们的语音服务已从单纯的转录扩展为一整套构建块,可以支持应用语音管道的部分或全部环节。这些服务支持实时和批处理模式,提供开发者友好的无服务器和专用部署选项。

流式语音转文本,专为语音代理设计

传统的批量转录需要等待完整的音频文件。语音代理需要实时处理语音流,并智能检测用户何时说完。

我们通过优化模型推理和智能系统设计,构建了行业最快的语音转文本 API——采用 WebSocket 流式传输消除连接开销,精心调校的语音活动检测(VAD),以及专为实时音频处理打造的基础设施。结果是:实时运行的 Whisper 模型,质量损失最小,转录完成速度比竞品快 35%。

关键在于优化“完成转录时间”,而不仅仅是“首词时间”。语音代理需要精确知道用户何时停止说话,以便开始生成回复。我们的 VAD 调校确保你的代理在正确时刻响应,不会太早(打断用户)或太晚(造成冷场)。

文本转语音:无服务器开源模型

Together AI 是首个提供无服务器开源文本转语音模型的云平台。不再需要为偶发的 TTS 需求启动专用实例——两款模型都可通过 REST API 进行批量生成,通过 WebSocket API 进行实时流式传输。

Orpheus TTS:自然语音质量

Orpheus 提供自然、富有表现力的语音,支持多种音色选项,适合面向客户的应用。首字节时间仅 187 毫秒,超越了高端商业服务商,接近轻量级模型的速度。结果是:专业级语音质量,同时满足语音代理所需的响应速度。

Kokoro TTS:极致速度

当每一毫秒都至关重要时,Kokoro 登场。基线首字节时间仅 97 毫秒,专为响应速度优先的应用打造。这种可预测的性能使其非常适合高并发语音代理部署,其中成本和延迟是关键考量。

新增音频转录功能

两项新功能扩展了我们的音频转录 API,支持批处理工作流:

Voxtral Mini

Voxtral Mini 是 Mistral AI 推出的高精度转录模型,针对欧洲语言和复杂音频条件优化。相比标准 Whisper,Voxtral 的词错误率显著降低——适合转录错误可能导致责任或操作负担的应用场景。

说话人分离

自动识别并标记录音中的不同说话人。将原始转录转换为结构化对话,显示谁在何时说了什么——这对于会议转录、呼叫中心质量保证和多方对话复盘至关重要。

为生产级语音代理打造

三项架构决策使 Together AI 的音频基础设施特别适合生产级语音代理:

延迟:实现自然对话的响应时间

人类对话有其特定节奏。响应时间超过 500 毫秒就会感觉不自然。超过 2 秒,用户会认为系统已失效。每增加 100 毫秒延迟,都会显著降低用户满意度和任务完成率。

我们的基础设施在每一层消除不必要的延迟。WebSocket 连接保持活跃,避免 TCP 握手开销。模型与你的 LLM 运行在同一 GPU 集群上,消除跨提供商网络延迟。最重要的是,我们的优化服务即使在流量高峰期间也能提供稳定的亚 200 毫秒 TTS 和毫秒级精确保转录。

实际影响:当客户打电话更改航班时,每延迟一秒都会增加他们挂断的概率。语音代理必须在人类对话的自然节奏内捕获请求、处理并开始响应。

质量:准确转录与自然语音

语音代理失败往往源于转录错误在对话中累积。听错的账号会导致查询失败,听不清的产品名会触发错误工作流。糟糕的语音质量会立即传递“廉价自动化”的信号,无论底层智能如何。

因此我们提供多个质量层级。流式 Whisper 处理实时转录,精度足以支持自然对话。当精度至关重要时——如法律取证、医疗咨询、金融交易——Voxtral 的卓越精度值得其溢价。在输出侧,Orpheus 提供用户期望的专业服务自然语音,而 Kokoro 则为高并发信息类用例提供清晰高效的语音。

以医疗预约机器人为例:它必须准确捕获药品名称,理解带口音的语音,并以恰当的共情回应。任何环节的质量失败都会破坏用户信任,导致昂贵的人工介入。

扩展性:生产负载下的稳定性能

演示表现良好但在生产负载下失败的语音基础设施会造成信任问题。在高峰时段体验服务降级的用户会学会避开该系统。

我们的基础设施在负载增加时保持性能稳定。WebSocket 实现中的独特优化允许通过单个连接复用多个对话——这对于像呼叫中心软件这样处理数百个同时通话的平台至关重要。无需管理数千个独立的 WebSocket 连接(及其相关的内存和网络开销),你可以通过共享连接高效路由多个隔离的音频流。

这种扩展方法贯穿我们的技术栈。地理分布确保无论用户身在何处都能获得低延迟。自动扩缩容处理流量高峰,无需人工干预。结果是:语音代理在处理 10 个或 10,000 个并发对话时表现一致。

立即试用

python
from together import Together
import asyncio

client = Together()

async def handle_conversation():
    # Listen to user input
    transcription = client.audio.transcriptions.create(
        model="whisper-large-v3",
        file=audio_stream,
        language="en"
    )
    
    # Generate response while monitoring for interruptions
    async with client.audio.speech.create(
        model="canopylabs/orpheus-3b-0.1-ft",
        input="I can help with that-",
        voice="tara"
    ) as tts:
        
        audio_playback = asyncio.create_task(play_audio(tts))
        
        # Simultaneously monitor for user interruptions
        async for chunk in transcription:
            if "wait" in chunk.text.lower() or "actually" in chunk.text.lower():
                audio_playback.cancel()
                # Adapt to new user input
                break

开始使用:

生产部署:
联系销售团队获取企业选项和专用基础设施。

本文编译自 Announcing the fastest inference for realtime voice AI agents,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论