Gemini 音频模型升级,支持实时语音翻译

指南2025年12月12日3 分钟阅读
Gemini 音频模型升级,支持实时语音翻译
Google 升级了 Gemini 2.5 Flash Native Audio 模型,提升了实时语音智能体(Voice Agent)的指令遵循和对话流畅度。同时,Google Translate 应用推出实时语音翻译测试版,支持超过 70 种语言,并能保留说话人的语调。
本文编译自 Improved Gemini audio models for powerful voice experiences,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

DiffusionGemma 是 Google 发布的实验性开放模型,使用文本扩散而非逐 token 生成,在 NVIDIA H100 上达到 1000+ tokens/s。模型激活参数仅 3.8B,量化后适配 18GB VRAM 消费级 GPU。输出质量低于 Gemma 4,但适合速度优先的本地工作流。

指南·6月10日·7 分钟

LSP Setup 技能通过七步工作流自动安装和配置语言服务器,支持 14 种语言,使 GitHub Copilot CLI 获得真正的代码智能,不再依赖文本搜索猜测。

指南GitHub·6月10日·6 分钟

评论