OpenAI 发布三款实时语音模型，支持推理、翻译与转录

深度OpenAI2026年5月7日6 分钟阅读

OpenAI 在 API 中推出了三款新的音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。其中 GPT-Realtime-2 首次具备 GPT-5 级推理能力，可在对话中调用工具、处理打断并自然推进；实时翻译模型支持 70+ 输入语言转 13 种输出语言；流式转录模型则实现低延迟的实时语音转文字。Zillow、Deutsche Telekom 等企业已开始用这些模型构建更智能的语音产品。

本文编译自 Advancing voice intelligence with new models in the API，版权归原作者所有。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

关注 @skillnav_dev →阅读周刊