Gemini 3.1 Flash-Lite 发布预览:面向大规模智能任务的高性价比模型

Mar 03, 2026
为你的最高吞吐量工作负载提供同级领先的智能能力。
Gemini 团队
总体摘要
Gemini 3.1 Flash-Lite 现已向开发者开放预览:可通过 Google AI Studio 中的 Gemini API 使用;企业用户可通过 Vertex AI 使用。其定价为输入每 1M tokens 0.25 美元、输出每 1M tokens 1.50 美元,在成本效率上表现突出,且速度快于 2.5 Flash。你可以将 3.1 Flash-Lite 用于翻译、内容审核、生成用户界面以及创建仿真等任务。
摘要由 Google AI 生成。生成式 AI 仍处于实验阶段。
基础解读
Google 发布了名为 Gemini 3.1 Flash-Lite 的新 AI 模型。它速度非常快、使用成本也更低,因此能让更多人用得起。这一 AI 在语言翻译、内容审核等任务上表现出色。已有部分公司在用它解决复杂问题,因为它兼具智能与效率。
摘要由 Google AI 生成。生成式 AI 仍处于实验阶段。

你的浏览器不支持 audio 元素。
收听文章
此内容由 Google AI 生成。生成式 AI 仍处于实验阶段
[[duration]] 分钟
今天,我们发布 Gemini 3.1 Flash-Lite——这是 Gemini 3 系列中速度最快、成本效率最高的模型。3.1 Flash-Lite 面向大规模高吞吐开发者工作负载打造,在其价格和模型层级上提供高质量输出。
从今天开始,3.1 Flash-Lite 将以预览形式向开发者开放:可通过 Google AI Studio 中的 Gemini API 使用;企业用户可通过 Vertex AI 使用。
不妥协的成本效率
3.1 Flash-Lite 定价仅为输入每 1M tokens 0.25 美元、输出每 1M tokens 1.50 美元。它以大型模型一小部分的成本实现了增强性能。根据 Artificial Analysis benchmark 数据,在保持相近或更高质量的同时,它相较 2.5 Flash 首个回答 Token 的响应速度(Time to First Answer Token)提升 2.5 倍,输出速度提升 45%。这种低延迟对于高频工作流至关重要,也使其成为开发者构建实时、可响应体验的理想模型。

Gemini 3.1 Flash-Lite 在速度和质量上都优于 2.5 Flash。
3.1 Flash-Lite 在 Arena.ai Leaderboard 上取得了 1432 的 Elo 高分,并且在推理与多模态理解等同级基准测试中领先其他模型,其中 GPQA Diamond 达到 86.9%,MMMU Pro 达到 76.8%——甚至超过了 Gemini 过往代际中更大体量的模型(如 2.5 Flash)。

面向开发者的可扩展自适应智能
除了原始性能之外,Gemini 3.1 Flash-Lite 在 AI Studio 和 Vertex AI 中默认提供 thinking levels,让开发者可按任务选择模型“思考”的深度,从而获得更高的控制力与灵活性,这对于管理高频工作负载非常关键。3.1 Flash-Lite 能够在规模化场景中处理任务,例如高吞吐翻译与内容审核(成本优先);也能应对需要更深入推理的复杂任务,例如生成用户界面与仪表盘、创建仿真或遵循复杂指令。
3.1 Flash-Lite 还能快速分析并分类大量内容(如图像)。
AI Studio 与 Vertex AI 的早期接入开发者,以及 Latitude、Cartwheel、Whering 等公司,已经在使用 3.1 Flash-Lite 解决大规模复杂问题。早期测试者强调了 3.1 Flash-Lite 的效率与推理能力,认为它能够以更大层级模型的精度处理复杂输入,同时还能良好遵循指令并保持一致性。
我们期待看到你基于 3.1 Flash-Lite 及 Gemini 3 系列其他模型构建出的新应用。
在邮箱中获取更多 Google 故事。
完成。还差一步。
请检查你的收件箱并确认订阅。
你已订阅我们的新闻简报。
你也可以通过以下方式订阅
相关文章
.
