S
SkillNav

AI Gateway 上线模型实时性能指标:网站与 REST API 均可查看

资讯2026-01-26T13:00:00+00:003 分钟阅读
AI Gateway 上线模型实时性能指标:网站与 REST API 均可查看

2 分钟阅读

2026 年 1 月 26 日

AI Gateway 现在可展示数百个模型的吞吐与延迟指标,基于实时性能数据帮助你选择更合适的模型。

这些指标会出现在三个位置,并且每小时更新一次:

  • 模型列表:每个模型的最佳性能(P50 latency 和 throughput)

  • 模型详情页:按提供商拆分的性能明细

  • REST API:滚动聚合的端点性能数据(latency 和 throughput,P50/P95)

Link to heading模型列表

AI Gateway 的模型列表现在新增了可排序的 latency 和 throughput 列。每一行都会展示该模型在所有可用提供商中的最佳 P50 指标(最低延迟、最高吞吐)。这些指标每小时更新,且基于 AI Gateway 客户的实时请求数据。

你可以按 throughput 排序来找到 Token 生成速度最快的模型,也可以按 latency 排序来找到首 Token 返回时间(time-to-first-token)最短的模型。

Link to heading模型详情页

在单个模型页面中,你可以看到每个有记录使用量的提供商对应的 P50 latency 和 throughput。这有助于你比较同一模型在不同提供商上的性能,并为你的使用场景选出最佳方案。

要访问这些页面,请在模型列表中点击任意模型,即可查看该模型在 AI Gateway 中所有承载提供商的更细粒度拆分数据。指标按小时刷新,且仅在提供商流量达到一定规模时显示。

下面是 openai/gpt-oss-120b 的示例:

与整体模型列表类似,在模型详情页中你也可以按 latency 和 throughput 在不同提供商之间进行排序。

Link to headingREST API

这些指标也可以通过 endpoints REST API 以编程方式获取。使用时,将 [ai-gateway-string] 替换为目标模型的 creator/model-name

code
curl ai-gateway.vercel.sh/v1/models/[ai-gateway-string]/endpoints

该接口会返回指定模型按提供商划分的实时小时级 P50/P95 latency(ms TTFT)与 throughput(T/s)。下面是 zai/glm-4.7 在 Cerebras 提供商下的 endpoint 返回示例。

code
curl ai-gateway.vercel.sh/v1/models/zai/glm-4.7/endpoints
code
      {        "name": "cerebras | zai/glm-4.7",        "latency_last_1h": {          "p50": 456.5,          "p95": 774.95        },        "throughput_last_1h": {          "p50": 354,          "p95": 445.45        },      }

如果你想查询完整模型列表,也可以将模型指标 endpoint 与 https://ai-gateway.vercel.sh/v1/models 结合使用。

原文链接:https://vercel.com/changelog/live-model-performance-metrics-accessible-via-ai-gateway

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟