MoAA:用开源模型集体智慧提升微调效果

深度2025年5月28日5 分钟阅读
MoAA:用开源模型集体智慧提升微调效果
用智能体混合(Mixture-of-Agents)作为教师进行蒸馏微调,效果超过了 GPT-4o。基于 Llama-3.1-8B-Instruct 的模型在 AlpacaEval 2 和 Arena-Hard 上表现优异。

用智能体混合(Mixture-of-Agents)作为教师进行蒸馏(监督微调),效果超过了 GPT-4o。这里的基线模型是 Meta 的 Llama-3.1-8B-Instruct。评估在 AlpacaEval 2 和 Arena-Hard 上进行。更多细节可以在我们的论文中找到。

一句话总结: 在我们新的 ICML 2025 论文中,我们提出了智能体混合对齐(Mixture-of-Agents Alignment,MoAA)作为一种有效的后训练方法,它利用了开源大语言模型的集体智慧。基于我们之前的工作——智能体混合集成(Ensemble)超越了 GPT-4o,MoAA 现在在一个单一、高效的模型中实现了这种协作优势。我们发布了论文SFT 数据以及模型权重:Llama-3.1-8B-Instructt-MoAA-SFTLlama-3.1-8B-Instructt-MoAA-DPOGemma-2-9b-it-MoAA-SFTGemma-2-9b-it-MoAA-DPO

大约一年前,我们展示了智能体混合方法的力量:开源模型的组合在聊天任务中显著优于 GPT-4o,我们在博客文章和随后的研究论文(ICLR 2025 Spotlight)中详细介绍了这一点。我们感谢社区对这个概念的反馈和热情。虽然 MoA 提供了最先进的性能,但其实际部署面临两个关键限制:计算成本高和架构复杂。为了应对这些挑战,我们提出了智能体混合对齐(MoAA),这是一种新颖的蒸馏框架,将多个模型的集体智慧合成到一个更小但更高效的 LLM 中。我们的实验表明,MoAA 使小模型能够达到比其大 10 倍的模型的性能水平,同时保留小模型的效率和成本优势。

为了说明我们方法的有效性,我们将 MoAA 开发的语言模型与规模大得多的流行开源模型进行了比较。用我们方法训练的模型显示出有希望的性能,甚至可以与比它们大 10 倍的模型竞争。

我们的 MoAA 模型实现了比类似甚至更大规模模型更优越的性能。使用我们方法调优的 Llama-3.1-9B-Instruct 在 Arena-Hard 上从 19.5 提高到 48.3。Gemma-2-9B-it 从 42 提高到 55.6。

MoAA 突出了开源语言模型的实际潜力,并强调了社区驱动开发在推进 AI 能力方面的影响。通过利用不同模型的互补优势并将它们蒸馏成一个紧凑、高效的系统,我们更接近于实现更易访问和可扩展的 AI 解决方案。

本文的其余部分将深入探讨 MoAA 的关键架构元素,并探索其集成到自我改进的模型开发流程中,为迭代式 AI 进步开辟新途径。

MoAA 配方

我们的 MoAA 方法涉及两个主要阶段。在第一阶段,我们使用 MoA 生成高质量的合成数据用于监督微调。在第二阶段,我们结合多个 LLM 作为奖励模型来提供偏好标注。更多细节如下所示。

实验设置

在我们的实验中,我们微调了两个基础模型,即 Llama-3.1-8b-Instruct 和 Gemma-2-9b-it,并评估它们在三个具有挑战性的对齐基准上的性能:AlpacaEval 2、Arena-Hard 和 MT-Bench。这些基准采用直接比较方法,其中每个模型的响应与 GPT-4 的响应配对,并由基于 GPT-4 的评估器确定首选响应,从而确保一致和高质量的评估。

MoAA-SFT — 使用 MoA 生成高质量的监督微调数据

我们的模型对齐过程从生成高质量的响应开始,这些响应利用了多个开源模型的集体知识和能力。对于每个指令或查询,我们首先从一组不同的开源模型(在智能体混合框架中称为提议者)收集响应。然后,这些提议的响应由另一个开源模型(在 MoA 中称为聚合器)合成。具体来说,我们研究中使用的提议者是 WizardLM-2-8x22b、Gemma-2-7b-it、Qwen-2-72b-Instruct 和 Llama-3.1-70b-Instruct,而 Qwen-1.5-110b-Instruct 作为聚合器。为了证明我们方法的有效性,我们从两个广泛使用的开源指令调优数据集中进行子采样:UltraFeedback 和 UltraChat。我们的子采样策略包括利用整个 UltraFeedback 数据集,并从 UltraChat 中随机选择 5,000 个样本。

为了证明这个合成数据集的有效性,我们使用监督微调来训练我们的小型目标模型,即 Llama-3.1-8b-Instruct 和 Gemma-2-9b-it。通过这个过程,小模型能够利用大模型的集体知识,有效地蒸馏它们的综合专业知识。

Llama-3.1-8B-Instruct 和 Gemma-2-9B-it 在 MoAA-SFT 后的性能显示了我们方法的有效性。两个 SFT 模型都获得了显著的性能提升。

从上表可以明显看出,我们的 SFT 模型比基线模型有显著改进。值得注意的是,在 Llama-3.1-8b-Instruct 上训练的 SFT 模型超过了大多数现有类似规模的模型,除了 Gemma-2-9b-it。此外,在 Gemma-2-9b-it 上训练的 SFT 模型成为同类中表现最好的模型,其性能非常接近 Llama-3.1-70b-Instruct。

通过 SFT 在单个模型和 MoA 生成的数据上的模型性能。所有模型都在原始的 Llama-3.1-8B-Instruct 上进行了调优。x 轴表示用于生成 SFT 数据的模型的性能,而 y 轴表示在基础模型上进行 SFT 后蒸馏(学生)模型的性能。

更重要的是,我们的方法超过了使用更强模型(如 GPT-4o)的响应在同一数据集上微调的 Llama-3.1-8b-Instruct 的性能。这个结果提供了令人信服的证据,表明我们的方法比 GPT-4o 生成了更高质量的合成数据。这些发现表明,我们的方法可以有效地将智能体混合的大部分能力蒸馏到一个更紧凑的模型中。

在成本方面,我们的 MoA 合成数据比使用闭源模型如 GPT-4o 更具成本效益。为了生成整个 UltraFeedback 子集(大约有 6 万个示例),我们的 MoA 方法需要 366 美元,而 GPT-4o 需要 429 美元。这是成本降低了 15%,同时性能更好。

MoAA-DPO — 用于直接偏好优化的 MoA

使用奖励模型的 DPO

基于合成数据生成和 SFT 建立的坚实基础,我们发现通过偏好对齐进一步细化可以显著提升我们蒸馏模型的性能。为了实现这一点,我们首先使用智能体混合作为奖励模型生成偏好数据,然后采用直接偏好优化来进一步提高性能。

为了准备 DPO 的数据,我们从先前训练的 SFT 模型中采样 5 个响应,并使用奖励模型为偏好学习选择首选和拒绝的响应。具体来说,我们利用奖励模型为每个方法识别最高得分的响应作为“选定”响应,最低得分的响应作为“拒绝”响应,这里我们提出了一种利用 MoA 作为奖励模型的新技术。我们的结果表明,通过这种方式,DPO 在所有基准上对 Llama-3.1-8b-Instruct 和 Gemma-2-9b-it 的 SFT 模型都有显著改进。

MoAA-DPO 通过在 DPO 中使用 MoA 作为奖励模型进一步提高了模型性能。

为了比较奖励模型的效果,我们评估了不同的奖励模型来整理偏好数据:ArmoRM-Llama3-8B-v0.1PairRM、Llama-3.1-70B-Instruct 作为奖励模型、gemma-2-27B-it 作为奖励模型、Qwen2-72B-Insutrct 作为奖励模型,以及 MoA 作为奖励模型。

这些奖励模型非常有效,这个比较使我们能够证明我们的 MoA 作为奖励模型的功效。值得注意的是,我们的方法在两个基准上超过了几个专门为此任务训练的强奖励模型,以及 GPT-4o。

使用不同奖励模型的模型性能比较。我们在所有设置中使用相同的 Llama-3.1-8B-Instruct-SFT 作为 DPO 的基础模型。

偏好对齐对我们蒸馏模型的影响是显著的。如上图所示,我们的结果表明,与使用 GPT-4o 作为奖励模型相比,DPO 方法在 AlpacaEval 2.0 和 Arena-Hard 上比最佳 SFT 模型有显著改进。虽然 DPO 在 MT-Bench 上的性能略有下降(与使用 GPT-4o 的 DPO 相比),但仍高于原始基线。这些发现证明了我们 MoAA 流程的有效性,并突出了通过利用多个模型的集体智慧来突破大语言模型边界的潜力。

MoAA 实现自我改进流程

我们发现,当 MoA 混合中最强的模型在 MoA 生成的数据上进行训练时,它仍然实现了显著的性能提升。这个发现特别令人兴奋,因为它意味着我们的方法有潜力进一步推进开源模型的能力,而不依赖于更强大 LLM 的监督。为了进一步研究这一点,我们评估了一个小规模 MoA 配置,包括:Gemma-2-9B-it、Llama-3.1-8B-Instruct 和 Mistral-7B-Instruct-v0.3 作为提议者,并利用两层 MoA 架构,其中 Gemma-2-9B-it 作为聚合器来生成数据混合。

通过小规模 MoA 设置微调的 Gemma-2-9b-it 模型的性能(SFT on MoA-Small-Scale)。

从表中可以明显看出,我们微调的模型(SFT on MoA-Small-Scale)显著优于混合中最强的模型(Gemma-2-9b-it)。这个结果提供了强有力的证据,表明可以建立一个自我改进的流程来持续提升模型性能。

有用链接

引用

如果您发现我们的工作有帮助,请引用。

(这篇博客文章是在 Together Chat 的帮助下撰写的。)

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论