Gemini API 新增 Flex 与 Priority 推理层级

今天,Google 为 Gemini API 新增了两个服务层级:Flex 和 Priority。这两个新选项让你能通过一个统一的接口,对成本和可靠性进行精细控制。
随着 AI 从简单的聊天发展为复杂的自主智能体(Agent),开发者通常需要管理两种不同类型的逻辑:
- 后台任务:像数据丰富化或“思考”过程这样的高吞吐量工作流,不需要即时响应。
- 交互式任务:像聊天机器人和副驾驶这样的用户端功能,需要高可靠性。
在此之前,要同时支持这两种任务,意味着你的架构需要在标准同步服务和异步 Batch API 之间拆分。Flex 和 Priority 有助于弥合这一差距。你现在可以将后台任务路由到 Flex,将交互式任务路由到 Priority,两者都使用标准的同步端点。这消除了异步作业管理的复杂性,同时让你享受到专用层级的经济和性能优势。
Flex 推理:以半价扩展创新
Flex 推理是我们新的成本优化层级,专为能容忍延迟、但无需批处理开销的工作负载设计。
- 50% 的价格节省:通过降低请求的关键性(使其可靠性降低,并增加延迟),支付标准 API 一半的价格。
- 同步的简洁性:与 Batch API 不同,Flex 是同步接口。你使用相同的熟悉端点,无需管理输入/输出文件或轮询作业完成状态。
- 理想用例:后台 CRM 更新、大规模研究模拟,以及智能体(Agent)在后台“浏览”或“思考”的工作流。
快速上手只需在请求中配置 service_tier 参数:
# 示例代码:设置 service_tier 为 FLEX
service_tier: "FLEX"
Flex 层级将适用于所有付费层级,并可用于 GenerateContent 和 Interactions API 请求。
Priority 推理:为关键应用提供最高可靠性
新的 Priority 推理层级以溢价提供我们最高级别的保障。这有助于确保你最重要的流量即使在平台使用高峰期也不会被抢占。
- 最高关键性:Priority 请求获得最高关键性,即使在高峰负载期间也能实现更高的可靠性。
- 优雅降级:如果你的流量超过了 Priority 限制,溢出的请求会自动在标准层级得到服务,而不是失败。这能保持你的应用在线,并有助于确保业务连续性。
- 透明的响应:API 响应会指示是哪个层级服务了你的请求,让你完全了解性能和计费情况。
- 理想用例:实时客户支持机器人、实时内容审核管道,以及时间敏感的请求。
要使用 Priority 推理,只需相应设置 service_tier 参数:
# 示例代码:设置 service_tier 为 PRIORITY
service_tier: "PRIORITY"
Priority 推理将适用于拥有 Tier 2 / 3 付费项目的用户,涵盖 GenerateContent API 和 Interactions API 端点。
访问 Gemini API 文档 查看完整的定价明细,并立即开始优化你的生产层级。要查看实际操作,请查看包含可运行代码示例的 cookbook。
觉得有用?分享给更多人