S
SkillNav

Gemini 3.1 Flash-Lite 发布预览:面向大规模智能任务的高性价比模型

资讯Google2026-03-03T16:34:00+00:004 分钟阅读
Gemini 3.1 Flash-Lite 发布预览:面向大规模智能任务的高性价比模型

Mar 03, 2026

为你的最高吞吐量工作负载提供同级领先的智能能力。

Gemini 团队

总体摘要

Gemini 3.1 Flash-Lite 现已向开发者开放预览:可通过 Google AI Studio 中的 Gemini API 使用;企业用户可通过 Vertex AI 使用。其定价为输入每 1M tokens 0.25 美元、输出每 1M tokens 1.50 美元,在成本效率上表现突出,且速度快于 2.5 Flash。你可以将 3.1 Flash-Lite 用于翻译、内容审核、生成用户界面以及创建仿真等任务。

摘要由 Google AI 生成。生成式 AI 仍处于实验阶段。

基础解读

Google 发布了名为 Gemini 3.1 Flash-Lite 的新 AI 模型。它速度非常快、使用成本也更低,因此能让更多人用得起。这一 AI 在语言翻译、内容审核等任务上表现出色。已有部分公司在用它解决复杂问题,因为它兼具智能与效率。

摘要由 Google AI 生成。生成式 AI 仍处于实验阶段。

Gemini 3.1 Flash Lite logo

你的浏览器不支持 audio 元素。

收听文章

此内容由 Google AI 生成。生成式 AI 仍处于实验阶段

[[duration]] 分钟

今天,我们发布 Gemini 3.1 Flash-Lite——这是 Gemini 3 系列中速度最快、成本效率最高的模型。3.1 Flash-Lite 面向大规模高吞吐开发者工作负载打造,在其价格和模型层级上提供高质量输出。

从今天开始,3.1 Flash-Lite 将以预览形式向开发者开放:可通过 Google AI Studio 中的 Gemini API 使用;企业用户可通过 Vertex AI 使用。

不妥协的成本效率

3.1 Flash-Lite 定价仅为输入每 1M tokens 0.25 美元、输出每 1M tokens 1.50 美元。它以大型模型一小部分的成本实现了增强性能。根据 Artificial Analysis benchmark 数据,在保持相近或更高质量的同时,它相较 2.5 Flash 首个回答 Token 的响应速度(Time to First Answer Token)提升 2.5 倍,输出速度提升 45%。这种低延迟对于高频工作流至关重要,也使其成为开发者构建实时、可响应体验的理想模型。

The image shows two bar charts titled "Speed & Cost Efficiency," comparing the "Output speed (higher is better)" and "Price (lower is better)" of Gemini 3.1 Flash-Lite against several other models, including Gemini 2.5 Flash-Lite, GPT-5 mini, Claude 4.5 Haiku, and Grok 4.1 Fast.

Gemini 3.1 Flash-Lite 在速度和质量上都优于 2.5 Flash。

3.1 Flash-Lite 在 Arena.ai Leaderboard 上取得了 1432 的 Elo 高分,并且在推理与多模态理解等同级基准测试中领先其他模型,其中 GPQA Diamond 达到 86.9%,MMMU Pro 达到 76.8%——甚至超过了 Gemini 过往代际中更大体量的模型(如 2.5 Flash)。

The image displays a comparison table of several AI models, including "Gemini 3.1 Flash-Lite," "Gemini 2.5 Dynamic," "Gemini 2.5 Flash-Lite," "GPT-5 mini," "Claude 4.5 Haiku," and "Grok 4.1 Fast," across various metrics such as input/output price, output speed, and different academic, reasoning, and factual benchmarks.

面向开发者的可扩展自适应智能

除了原始性能之外,Gemini 3.1 Flash-Lite 在 AI Studio 和 Vertex AI 中默认提供 thinking levels,让开发者可按任务选择模型“思考”的深度,从而获得更高的控制力与灵活性,这对于管理高频工作负载非常关键。3.1 Flash-Lite 能够在规模化场景中处理任务,例如高吞吐翻译与内容审核(成本优先);也能应对需要更深入推理的复杂任务,例如生成用户界面与仪表盘、创建仿真或遵循复杂指令。

3.1 Flash-Lite 还能快速分析并分类大量内容(如图像)。

AI Studio 与 Vertex AI 的早期接入开发者,以及 Latitude、Cartwheel、Whering 等公司,已经在使用 3.1 Flash-Lite 解决大规模复杂问题。早期测试者强调了 3.1 Flash-Lite 的效率与推理能力,认为它能够以更大层级模型的精度处理复杂输入,同时还能良好遵循指令并保持一致性。

我们期待看到你基于 3.1 Flash-Lite 及 Gemini 3 系列其他模型构建出的新应用。

在邮箱中获取更多 Google 故事。

完成。还差一步。

请检查你的收件箱并确认订阅。

你已订阅我们的新闻简报。

你也可以通过以下方式订阅

相关文章

.

查看原文 ↗

相关文章

资讯Simon Willison·3月6日
Clinejection 攻击披露:仅靠 Issue 分诊提示词即可攻陷 Cline 生产发布流程

研究者 Adnan Khan 披露了一条针对 Cline GitHub 仓库的完整攻击链:攻击者先通过 Issue 标题中的 prompt injection 控制 AI 分诊流程,再借助 GitHub Actions 缓存投毒影响夜间发布任务。尽管分诊工作流本身不含高价值密钥,但因与发布工作流共享缓存键,最终仍导致 NPM 发布凭据可被窃取。事件后 `cline@2.3.0` 曾被匿名攻击者发布(现已撤回),所幸未造成更严重后果。

3 分钟
Copilot 代码审查突破 6000 万次,GitHub 详解 Agent 架构演进
资讯GitHub·3月5日
Copilot 代码审查突破 6000 万次,GitHub 详解 Agent 架构演进

GitHub 表示,自 2025 年 4 月推出 Copilot code review 以来,使用量已增长 10 倍,如今占 GitHub 全站代码审查的五分之一以上。团队通过持续评估闭环与 Agent 化架构优化,将“好审查”聚焦在准确性、信号强度与速度三项核心指标,并在真实生产环境中用开发者反馈和问题修复率衡量效果。当前已有超过 1.2 万家组织在每个 pull request 上自动运行该能力,GitHub 下一步将推进更深度个性化与双向交互审查体验。

8 分钟