Together Evaluations 支持主流商业 API 模型评测

指南2026年2月2日4 分钟阅读
Together Evaluations 支持主流商业 API 模型评测
Together Evaluations 现已支持 OpenAI、Anthropic 和 Google 的闭源前沿模型作为评测基准。开发者可以在同一平台对比开源、微调和商业模型的质量、成本和性能,做出数据驱动的决策。

现代大语言模型(LLM)开发面临一个核心难题:如何在不断扩展的开源、闭源和微调模型生态中,平衡质量、成本和性能。Together Evaluations 提供了一个统一的执行框架(Harness),让团队能够基于实证数据对比各类模型,做出明智的选择。

这个框架结构清晰、可重复,主要能帮你做三件事:

  • 横向对比模型:用同一套方法和指标评估开源、微调和商业模型。
  • 做出数据驱动的架构决策:判断针对特定任务,是优化提示(Prompt)还是进行微调(Fine-Tuning)回报更高。
  • 追踪质量改进:通过可复现的自动化评估,监控模型质量的进展。

新功能速览

现在,Together Evaluations 正式支持将 OpenAI、Anthropic 和 Google 的闭源前沿模型作为评测基准(Judge Model)或被评测模型(Target Model),实现跨模型的严格基准测试。

具体新增了以下三大能力:

1. 支持主流商业模型提供商

评测 API 现已支持来自头部商业提供商的多款模型。用户也可以指定任何与 OpenAI Chat Completions 兼容的 URL 来评估自托管的外部模型。

支持的模型列表包括:

  1. OpenAI
    • openai/gpt-5
    • openai/gpt-5.2
  2. Anthropic
    • anthropic/claude-sonnet-4-5
    • anthropic/claude-haiku-4-5
    • anthropic/claude-opus-4-5
  3. Google
    • google/gemini-2.5-pro
    • google/gemini-2.5-flash

2. 可直接评估 Together 微调模型

用户现在可以直接在评测 API 中评估使用 Together AI 微调服务 微调过的模型,支持两种部署选项:

  1. LoRA 无服务器推理
  2. 专用推理端点

3. 新增优化与评估开源模型的实战指南

  1. 深度解析文章 和配套的 实战手册 展示了如何利用平台微调开源评测模型,使其性能超越 GPT-5.2。该手册演示了如何使用 DPO 在 RewardBench 2 偏好数据上微调开源大语言模型评测模型(如 GPT-OSS 120B, Qwen3 235B),最终达到 62.63% 的准确率,超过了 GPT-5.2 的 61.62%。它提供了一个端到端的工作流,结合了 Together AI 的评测和微调 API,证明了开源模型能以10倍的成本优势和15倍的速度优势击败闭源评测模型。
  2. 另一份 手册 演示了如何将评测服务与流行的 GEPA 框架结合,实现无需手动提示工程的自动提示优化。在 CNN/DailyMail 数据集上,GEPA 通过大语言模型引导的反思和头对头评估,迭代优化了一个基础的摘要生成提示,将其胜率从 50% 提升到了 62.12%,展示了自动提示优化能带来的显著质量提升。

上手评测:分步指南

  1. 上传数据:支持 JSONL 或 CSV 格式。
  2. 选择评测类型classify(分类)、score(打分)或 compare(比较)。
  3. 描述评测任务:以 Jinja2 格式给评测模型一个 system_template
    • 如果需要,可以用这个模板指定数据集中的参考答案:“Please use the reference answer: {{reference_answer_column_name}}”
  4. 配置待评测模型
    • 对于外部模型:设置 model_source='external' 并提供你的 API 密钥。
    • 对于微调模型:从你的 LoRA 无服务器部署或专用推理端点复制模型 ID。
    • 定义 input_template 来引用数据集中包含提示的列。例如:“Answer the following: {{prompt_column}}”
  5. 获取结果:平台会提供聚合的评测指标,以及包含评测模型完整反馈的结果文件。

你可以通过 网页界面APIPython 客户端 提交评测请求。完整文档在这里

为了展示这些新能力,我们准备了一份实战手册和深度解析文章,演示如何为你的具体任务选择最佳模型和优化策略。内容涵盖了多种方法:

  1. 提示优化
  2. 模型微调
  3. 与商业模型的对比评测

相关材料链接:

准备好运行你自己的大语言模型基准测试了吗?

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论