Gemini API 新增 Flex 与 Priority 推理层级

指南2026年4月2日3 分钟阅读
Gemini API 新增 Flex 与 Priority 推理层级
Google 为 Gemini API 引入 Flex 和 Priority 两个新的推理层级,让开发者能在单一接口中精细控制成本与可靠性。Flex 针对延迟容忍型任务,价格比标准 API 便宜 50%;Priority 则为关键应用提供最高级别的保障。

今天,Google 为 Gemini API 新增了两个服务层级:Flex 和 Priority。这两个新选项让你能通过一个统一的接口,对成本和可靠性进行精细控制。

随着 AI 从简单的聊天发展为复杂的自主智能体(Agent),开发者通常需要管理两种不同类型的逻辑:

  • 后台任务:像数据丰富化或“思考”过程这样的高吞吐量工作流,不需要即时响应。
  • 交互式任务:像聊天机器人和副驾驶这样的用户端功能,需要高可靠性。

在此之前,要同时支持这两种任务,意味着你的架构需要在标准同步服务和异步 Batch API 之间拆分。Flex 和 Priority 有助于弥合这一差距。你现在可以将后台任务路由到 Flex,将交互式任务路由到 Priority,两者都使用标准的同步端点。这消除了异步作业管理的复杂性,同时让你享受到专用层级的经济和性能优势。

Flex 推理:以半价扩展创新

Flex 推理是我们新的成本优化层级,专为能容忍延迟、但无需批处理开销的工作负载设计。

  • 50% 的价格节省:通过降低请求的关键性(使其可靠性降低,并增加延迟),支付标准 API 一半的价格。
  • 同步的简洁性:与 Batch API 不同,Flex 是同步接口。你使用相同的熟悉端点,无需管理输入/输出文件或轮询作业完成状态。
  • 理想用例:后台 CRM 更新、大规模研究模拟,以及智能体(Agent)在后台“浏览”或“思考”的工作流。

快速上手只需在请求中配置 service_tier 参数:

code
# 示例代码:设置 service_tier 为 FLEX
service_tier: "FLEX"

Flex 层级将适用于所有付费层级,并可用于 GenerateContent 和 Interactions API 请求。

Priority 推理:为关键应用提供最高可靠性

新的 Priority 推理层级以溢价提供我们最高级别的保障。这有助于确保你最重要的流量即使在平台使用高峰期也不会被抢占。

  • 最高关键性:Priority 请求获得最高关键性,即使在高峰负载期间也能实现更高的可靠性。
  • 优雅降级:如果你的流量超过了 Priority 限制,溢出的请求会自动在标准层级得到服务,而不是失败。这能保持你的应用在线,并有助于确保业务连续性。
  • 透明的响应:API 响应会指示是哪个层级服务了你的请求,让你完全了解性能和计费情况。
  • 理想用例:实时客户支持机器人、实时内容审核管道,以及时间敏感的请求。

要使用 Priority 推理,只需相应设置 service_tier 参数:

code
# 示例代码:设置 service_tier 为 PRIORITY
service_tier: "PRIORITY"

Priority 推理将适用于拥有 Tier 2 / 3 付费项目的用户,涵盖 GenerateContent API 和 Interactions API 端点。

访问 Gemini API 文档 查看完整的定价明细,并立即开始优化你的生产层级。要查看实际操作,请查看包含可运行代码示例的 cookbook

本文编译自 New ways to balance cost and reliability in the Gemini API,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Codex 新增按量付费团队方案,降低企业使用门槛。ChatGPT Business 年费降价 20%,新团队可获得最高 500 美元使用额度。目前已有超过 200 万开发者每周使用 Codex。

指南OpenAI·4月2日·2 分钟

评论