Llama-3-70B 分治策略击败 GPT-4o 长文本处理

深度2026年3月26日4 分钟阅读
Llama-3-70B 分治策略击败 GPT-4o 长文本处理
大语言模型(LLM)的上下文窗口(Context Window)越来越大,但性能却会随着文本长度增加而意外下降。研究发现,采用分治(Divide & Conquer)框架——将长文档拆分成并行处理的块,由规划器(Planner)、工作器(Worker)和管理器(Manager)协同——可以让 Llama-3-70B、Qwen-72B 等小模型在长上下文任务上超越 GPT-4o 的单次处理(Single-shot)。

核心思路:别让一个天才一小时读完整个图书馆,找十个实习生每人读一本书就行。

我们的研究《When Does Divide and Conquer Work for Long Context LLM?》(ICLR 2026)提出了一个框架来验证这一点。我们发现,小模型通过精心设计的“分治”策略,可以在长上下文任务上匹配甚至击败 GPT-4o 的单次处理。

[论文, ICLR 2026] [代码]

现代大语言模型(LLM)的上下文窗口(Context Window)越来越大,128K、200K 甚至 100 万以上 token 都很常见。理论上,这能实现分析整个代码库、总结整本书等强大用例。

但“把所有东西塞进一个提示词”的做法经常失败。随着上下文长度增加,性能会以意想不到的方式下降。“分治”成了长上下文任务的一个有吸引力的解决方案,如下图所示。

“分治”框架。规划器(Planner)重写任务描述,工作器(Worker)各自处理长文档的一部分,管理器(Manager)汇总信息并提供最终答案。

论文中,我们发现较弱模型使用精心设计的“分治”框架,可以在长上下文任务上匹配或击败 GPT-4o 单次处理。

核心问题:长度的“迷雾”

如何充分利用“分治”方法处理长上下文任务?我们将挑战分解为三种不同的噪声源:

  1. 模型噪声(Model Noise,即“脑雾”): 模型不是线性遗忘,而是会不堪重负。研究表明,模型混淆随输入长度超线性增长。拆分任务在数学上更优,因为每个新块都在较短长度内重置了混淆计数器。
  2. 任务噪声(Task Noise,即“孤岛效应”): 有时一个块单独看没有意义(比如代词指向前一章)。这种“跨块依赖”(Cross-Chunk Dependence)在文本拆分时会产生噪声。
  3. 聚合噪声(Aggregator Noise,即“糟糕的总结”): 即使工作器完成了任务,最终的管理器模型也可能无法正确拼接部分答案。

简单的“MapReduce”方法常因聚合噪声而失败,即最终答案混乱或不一致,因为管理器缺乏上下文。我们的框架预测,通过更清晰的指令减少这种噪声,就能释放较弱模型的潜力。

“第二小数”示例: 假设任务是从巨大列表中找出第二小的数字。如果简单要求工作器在各自块中“找出第二小的数字”,最终管理器会失败,因为全局第二小的数字可能是某个块中的最小数字。

  • 简单提示:“找出第二小的数字。”(失败)
  • 规划提示:“识别并返回两个最小的数字。”

通过调整提示词来应对聚合噪声,我们确保管理器有正确的数据来计算全局答案。

实验验证理论

我们在多种任务(检索、问答、摘要等)上测试了这个框架实现。如下图所示,较弱模型使用该框架(如 Llama-3-70B 或 Qwen-72B)的表现优于 GPT-4o 一次性读取整个文本。单次处理模型(红色虚线)性能随上下文长度增加而下降,而分治模型保持高性能。

红色虚线是 GPT-4o 一次性处理整个文本。彩色线是小模型使用分治加规划。注意,在合适的块大小下,较弱模型持续胜出。

工程优势

从工程角度看,这个框架带来三大实际好处:

  1. 更便宜: 繁重工作交给更小、更便宜的模型(工作器),而不是为旗舰模型 token 付费。
  2. 更快: 工作器并行运行。避免了单次串行处理巨大 128k token 上下文的高延迟。
  3. 易调优: 我们发现,由于噪声曲线的可预测性,仅测试 5 个随机样本就足以找到最佳块大小。无需在整个数据集上 exhaustive 搜索。框架还允许解耦工作器和管理器,分配不同的 LLM 后端。

局限:何时用单次处理而非分治

这个方法不是银弹。它最适合问答、检索、摘要等跨块依赖适中的任务。当任务噪声占主导时,优势消失。如果任务需要跟踪从第 1 页到第 100 页的微妙线索(如论文中的“对话角色推理”任务),“分治”步骤会破坏必要上下文。在这些高协同性情况下,“天才”模型阅读整个图书馆仍是唯一途径。更多细节请参阅论文。

音频名称

音频描述

0:00

具备原生音频和逼真物理效果的优质电影级视频生成。

8S

DeepSeek R1

具备原生音频和逼真物理效果的优质电影级视频生成。

性能与规模

正文内容占位符,Lorem ipsum dolor sit amet

  • 要点占位符,Lorem ipsum
  • 要点占位符,Lorem ipsum
  • 要点占位符,Lorem ipsum

基础设施

最佳适用场景

  • 更快的处理速度(更低的整体查询延迟)和更低的运营成本
  • 执行定义明确、直接的任务
  • 函数调用(Function Calling)、JSON 模式或其他结构良好的任务

列表项 #1

  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.
  • Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt.

列表项 #1

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

构建

包含的福利:

  • ✔ 最高 15,000 美元的平台免费额度*
  • ✔ 3 小时免费的前置部署工程时间。

融资:少于 500 万美元

构建

包含的福利:

  • ✔ 最高 15,000 美元的平台免费额度*
  • ✔ 3 小时免费的前置部署工程时间。

融资:少于 500 万美元

构建

包含的福利:

  • ✔ 最高 15,000 美元的平台免费额度*
  • ✔ 3 小时免费的前置部署工程时间。

融资:少于 500 万美元

标题

正文内容占位符,Lorem ipsum dolor sit amet

标题

正文内容占位符,Lorem ipsum dolor sit amet

标题

正文内容占位符,Lorem ipsum dolor sit amet

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论