Together Evaluations:用开源模型做定制化评测

指南2025年7月28日4 分钟阅读
Together Evaluations:用开源模型做定制化评测
Together Evaluations 发布早期预览版,这是一个用开源大语言模型当评委的评测框架。无需人工标注,就能快速评估不同模型在你具体任务上的表现。

用大语言模型做产品,怎么知道哪个模型最适合你的任务?新模型层出不穷,靠感觉选型太不靠谱。

一个有效的方法是:定义好任务基准,然后找个强力的 AI 模型来当评委。这样既不用费时费力做人工标注,也不用被死板的算法指标限制,能快速对比不同模型的响应质量。

为了支持这个工作流,我们发布了 Together Evaluations 的早期预览版。这是一个快速、灵活的框架,让你能用自己掌控的开源评委模型来评测 LLM 的响应质量。

为什么用 LLM 当评委?

AI 应用的核心是底层的大语言模型,模型响应的质量直接决定了产品成败。但怎么衡量一个模型在特定任务上的表现呢?整个语言模型评测领域都在试图回答这个问题,方法从人工标注到自动化指标都有。

最近几年,大语言模型的能力已经足够强,强到模型自己就能当评测员了!和传统的人工标注比,用 LLM 当评委快得多——你只需要把每个待评测样本单独作为提示词跑一遍模型,这比训练标注员、等他们出结果快了不止一个数量级。和算法指标(比如翻译用的 BLEU、分类用的 F1 分数)比,LLM 评委灵活得多:任何能用自然语言描述的东西,你都能用它来测量。最后,如果你的任务定义稍有变动,LLM 评委指标也非常容易调整,改改系统提示词就行。

Together Evaluations 怎么用

Together Evaluations 提供了一个强大的框架,让你能定义自定义的 LLM 评测基准,并用 LLM 评委在这些基准上对比不同模型。平台提供三种评测模式,每种都由一个你可以用提示词模板完全控制的 LLM 驱动:

模式用途典型任务
分类(Classify)把每个样本归到你指定的几个标签之一“这段文字违反了哪条政策?”
评分(Score)在你定义的任意尺度上给出数字评分“这个答案的相关性在 0-5 分里能打几分?”
对比(Compare)判断两个模型响应哪个更好,并说明原因“哪个模型的回答更简洁?”

每次评测都会返回聚合指标(准确率、平均分或胜率)和行级别的评委反馈供你查看。以下是几个可以用平台完成的任务示例:

挑战Together Evaluations 如何帮忙
为任务选择最佳模型或提示词启动对比评测,看看哪个模型或配置在你的任务上表现最好
发布前不确定模型质量在预留数据上运行评分任务,只有通过率 ≥ 95% 才上线
用户上传的内容不安全或违反政策创建分类任务来标记不安全或包含个人身份信息(PII)的记录
部署后出现数据漂移和性能回退安排每晚评测,在用户发现前捕捉质量下降
新任务缺少标注数据引导生成数据集:让评委创建弱标签,后续再人工整理
不确定是否该从闭源模型切换到开源运行对比评测,验证质量和成本效益

目前,通过我们无服务器推理 API 提供的所有语言模型都支持作为评测候选模型,我们也提供了一批最强的 LLM 评委模型。如果你已经有模型生成的现成数据集(比如本地跑的或者从其他 LLM 提供商那里拿的),可以直接上传,用评委模型打分,无需重复调用推理!

分步指南

  1. 上传数据,支持 JSONL 或 CSV 格式
  2. 选择评测类型classifyscorecompare
  3. 描述你想评测什么,用 Jinja2 格式给评委一个 system_template
    • 你可以用这个 Jinja 模板指定数据集里的参考答案:“Please use the reference answer: {{reference_answer_column_name}}”
  4. 配置要评测的模型:
    • 可用模型列表里选一个
    • input_template 配置,引用数据集中包含提示词的列。例如:“Answer the following: {{prompt_column}}”
  5. 获取结果! 我们会提供聚合的评测指标,以及包含评委完整反馈的结果文件。

你可以用网页界面APIPython 客户端 提交评测请求。完整文档在这里

为了展示 Together Evaluations 的用法,我们准备了几个演示,展示了 LLM 当评委工作流的实际场景。你可以在 Jupyter 笔记本这里找到这些演示。

用 LLM 当评委做评测:演示与笔记本

探索如何用 Evals 功能,通过 LLM 评委来评估模型输出。下面是一些核心用例,附有可运行的笔记本和演示视频。

✅ 分类:用自定义标准给响应贴标签

classify 功能给模型输出分配标签(比如正确性、语气、相关性)。适合创建标注数据集或过滤生成内容。

📓 笔记本:Classifying harmful LLM output

🎥 演示

📊 评分:用数字量表给响应打分

score 功能让你能用 LLM 给模型输出打 1-10 分(或类似量表),帮助量化质量、连贯性或相关性。

🎥 演示

🔁 对比:A/B 测试模型和提示词

用 compare 功能对两个模型输出甚至提示词进行两两对比。非常适合测试哪个开源模型在你的任务上表现更好,或者哪个提示词能让同一个模型生成更好的内容。

📓 Notebook: Compare OS models for summarization

📓 Notebook: Compare two prompts

🎥 演示

定价

用 Together 运行评测,你只需要支付无服务器推理的费用,用来跑所有候选模型以及 LLM 评委。换句话说,评测本身没有额外成本。

结语

构建 LLM 驱动的应用正逐渐成为一个成熟的领域,我们 Together 希望支持 AI 开发者在旅程的每一步。这次 Together Evaluations 的早期预览版是实现这个愿景的第一步:无论你是在探索为你的项目选哪个模型,还是在努力提升响应质量,我们都希望能让它变得简单。我们很期待听到你对平台的反馈,也很想知道你会用它构建什么!

如果你想了解更多关于为你的用例运行 LLM 当评委的信息,可以参加 7 月 31 日的线上研讨会,或者通过 Discord 联系我们

准备好运行你自己的 LLM 评测了吗?

本文编译自 Together Evaluations: Benchmark Models for Your Tasks,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论