Together Evaluations:用开源模型做定制化评测

用大语言模型做产品,怎么知道哪个模型最适合你的任务?新模型层出不穷,靠感觉选型太不靠谱。
一个有效的方法是:定义好任务基准,然后找个强力的 AI 模型来当评委。这样既不用费时费力做人工标注,也不用被死板的算法指标限制,能快速对比不同模型的响应质量。
为了支持这个工作流,我们发布了 Together Evaluations 的早期预览版。这是一个快速、灵活的框架,让你能用自己掌控的开源评委模型来评测 LLM 的响应质量。
为什么用 LLM 当评委?
AI 应用的核心是底层的大语言模型,模型响应的质量直接决定了产品成败。但怎么衡量一个模型在特定任务上的表现呢?整个语言模型评测领域都在试图回答这个问题,方法从人工标注到自动化指标都有。
最近几年,大语言模型的能力已经足够强,强到模型自己就能当评测员了!和传统的人工标注比,用 LLM 当评委快得多——你只需要把每个待评测样本单独作为提示词跑一遍模型,这比训练标注员、等他们出结果快了不止一个数量级。和算法指标(比如翻译用的 BLEU、分类用的 F1 分数)比,LLM 评委灵活得多:任何能用自然语言描述的东西,你都能用它来测量。最后,如果你的任务定义稍有变动,LLM 评委指标也非常容易调整,改改系统提示词就行。
Together Evaluations 怎么用
Together Evaluations 提供了一个强大的框架,让你能定义自定义的 LLM 评测基准,并用 LLM 评委在这些基准上对比不同模型。平台提供三种评测模式,每种都由一个你可以用提示词模板完全控制的 LLM 驱动:
| 模式 | 用途 | 典型任务 |
|---|---|---|
| 分类(Classify) | 把每个样本归到你指定的几个标签之一 | “这段文字违反了哪条政策?” |
| 评分(Score) | 在你定义的任意尺度上给出数字评分 | “这个答案的相关性在 0-5 分里能打几分?” |
| 对比(Compare) | 判断两个模型响应哪个更好,并说明原因 | “哪个模型的回答更简洁?” |
每次评测都会返回聚合指标(准确率、平均分或胜率)和行级别的评委反馈供你查看。以下是几个可以用平台完成的任务示例:
| 挑战 | Together Evaluations 如何帮忙 |
|---|---|
| 为任务选择最佳模型或提示词 | 启动对比评测,看看哪个模型或配置在你的任务上表现最好 |
| 发布前不确定模型质量 | 在预留数据上运行评分任务,只有通过率 ≥ 95% 才上线 |
| 用户上传的内容不安全或违反政策 | 创建分类任务来标记不安全或包含个人身份信息(PII)的记录 |
| 部署后出现数据漂移和性能回退 | 安排每晚评测,在用户发现前捕捉质量下降 |
| 新任务缺少标注数据 | 引导生成数据集:让评委创建弱标签,后续再人工整理 |
| 不确定是否该从闭源模型切换到开源 | 运行对比评测,验证质量和成本效益 |
目前,通过我们无服务器推理 API 提供的所有语言模型都支持作为评测候选模型,我们也提供了一批最强的 LLM 评委模型。如果你已经有模型生成的现成数据集(比如本地跑的或者从其他 LLM 提供商那里拿的),可以直接上传,用评委模型打分,无需重复调用推理!
分步指南
- 上传数据,支持 JSONL 或 CSV 格式
- 选择评测类型:
classify、score或compare - 描述你想评测什么,用 Jinja2 格式给评委一个
system_template- 你可以用这个 Jinja 模板指定数据集里的参考答案:“Please use the reference answer: {{reference_answer_column_name}}”
- 配置要评测的模型:
- 从可用模型列表里选一个
- 用
input_template配置,引用数据集中包含提示词的列。例如:“Answer the following: {{prompt_column}}”
- 获取结果! 我们会提供聚合的评测指标,以及包含评委完整反馈的结果文件。
你可以用网页界面、API 或 Python 客户端 提交评测请求。完整文档在这里。
为了展示 Together Evaluations 的用法,我们准备了几个演示,展示了 LLM 当评委工作流的实际场景。你可以在 Jupyter 笔记本这里找到这些演示。
用 LLM 当评委做评测:演示与笔记本
探索如何用 Evals 功能,通过 LLM 评委来评估模型输出。下面是一些核心用例,附有可运行的笔记本和演示视频。
✅ 分类:用自定义标准给响应贴标签
用 classify 功能给模型输出分配标签(比如正确性、语气、相关性)。适合创建标注数据集或过滤生成内容。
📓 笔记本:Classifying harmful LLM output
🎥 演示
📊 评分:用数字量表给响应打分
score 功能让你能用 LLM 给模型输出打 1-10 分(或类似量表),帮助量化质量、连贯性或相关性。
🎥 演示
🔁 对比:A/B 测试模型和提示词
用 compare 功能对两个模型输出甚至提示词进行两两对比。非常适合测试哪个开源模型在你的任务上表现更好,或者哪个提示词能让同一个模型生成更好的内容。
📓 Notebook: Compare OS models for summarization
📓 Notebook: Compare two prompts
🎥 演示
定价
用 Together 运行评测,你只需要支付无服务器推理的费用,用来跑所有候选模型以及 LLM 评委。换句话说,评测本身没有额外成本。
结语
构建 LLM 驱动的应用正逐渐成为一个成熟的领域,我们 Together 希望支持 AI 开发者在旅程的每一步。这次 Together Evaluations 的早期预览版是实现这个愿景的第一步:无论你是在探索为你的项目选哪个模型,还是在努力提升响应质量,我们都希望能让它变得简单。我们很期待听到你对平台的反馈,也很想知道你会用它构建什么!
如果你想了解更多关于为你的用例运行 LLM 当评委的信息,可以参加 7 月 31 日的线上研讨会,或者通过 Discord 联系我们。
准备好运行你自己的 LLM 评测了吗?
- 📄 阅读文档
- 🖥 试试评测界面
- 📓 阅读教程笔记本
- 🧑🏫 报名参加研讨会
- 💬 有问题? 加入我们的 Discord
觉得有用?分享给更多人