Together Evaluations 支持主流商业 API 模型评测

现代大语言模型(LLM)开发面临一个核心难题:如何在不断扩展的开源、闭源和微调模型生态中,平衡质量、成本和性能。Together Evaluations 提供了一个统一的执行框架(Harness),让团队能够基于实证数据对比各类模型,做出明智的选择。
这个框架结构清晰、可重复,主要能帮你做三件事:
- 横向对比模型:用同一套方法和指标评估开源、微调和商业模型。
- 做出数据驱动的架构决策:判断针对特定任务,是优化提示(Prompt)还是进行微调(Fine-Tuning)回报更高。
- 追踪质量改进:通过可复现的自动化评估,监控模型质量的进展。
新功能速览
现在,Together Evaluations 正式支持将 OpenAI、Anthropic 和 Google 的闭源前沿模型作为评测基准(Judge Model)或被评测模型(Target Model),实现跨模型的严格基准测试。
具体新增了以下三大能力:
1. 支持主流商业模型提供商
评测 API 现已支持来自头部商业提供商的多款模型。用户也可以指定任何与 OpenAI Chat Completions 兼容的 URL 来评估自托管的外部模型。
支持的模型列表包括:
- OpenAI
openai/gpt-5openai/gpt-5.2
- Anthropic
anthropic/claude-sonnet-4-5anthropic/claude-haiku-4-5anthropic/claude-opus-4-5
- Google
google/gemini-2.5-progoogle/gemini-2.5-flash
2. 可直接评估 Together 微调模型
用户现在可以直接在评测 API 中评估使用 Together AI 微调服务 微调过的模型,支持两种部署选项:
3. 新增优化与评估开源模型的实战指南
- 深度解析文章 和配套的 实战手册 展示了如何利用平台微调开源评测模型,使其性能超越 GPT-5.2。该手册演示了如何使用 DPO 在 RewardBench 2 偏好数据上微调开源大语言模型评测模型(如 GPT-OSS 120B, Qwen3 235B),最终达到 62.63% 的准确率,超过了 GPT-5.2 的 61.62%。它提供了一个端到端的工作流,结合了 Together AI 的评测和微调 API,证明了开源模型能以10倍的成本优势和15倍的速度优势击败闭源评测模型。
- 另一份 手册 演示了如何将评测服务与流行的 GEPA 框架结合,实现无需手动提示工程的自动提示优化。在 CNN/DailyMail 数据集上,GEPA 通过大语言模型引导的反思和头对头评估,迭代优化了一个基础的摘要生成提示,将其胜率从 50% 提升到了 62.12%,展示了自动提示优化能带来的显著质量提升。
上手评测:分步指南
- 上传数据:支持 JSONL 或 CSV 格式。
- 选择评测类型:
classify(分类)、score(打分)或compare(比较)。 - 描述评测任务:以 Jinja2 格式给评测模型一个
system_template。- 如果需要,可以用这个模板指定数据集中的参考答案:“Please use the reference answer: {{reference_answer_column_name}}”
- 配置待评测模型:
- 对于外部模型:设置
model_source='external'并提供你的 API 密钥。 - 对于微调模型:从你的 LoRA 无服务器部署或专用推理端点复制模型 ID。
- 定义
input_template来引用数据集中包含提示的列。例如:“Answer the following: {{prompt_column}}”
- 对于外部模型:设置
- 获取结果:平台会提供聚合的评测指标,以及包含评测模型完整反馈的结果文件。
你可以通过 网页界面、API 或 Python 客户端 提交评测请求。完整文档在这里。
为了展示这些新能力,我们准备了一份实战手册和深度解析文章,演示如何为你的具体任务选择最佳模型和优化策略。内容涵盖了多种方法:
- 提示优化
- 模型微调
- 与商业模型的对比评测
相关材料链接:
准备好运行你自己的大语言模型基准测试了吗?
- 📄 阅读文档
- 🖥 试用评测界面
- 📓 查看教程手册
- 💬 有问题?加入我们的 Discord
觉得有用?分享给更多人