上下文窗口停滞两年,AI 内存短缺成瓶颈

深度Latent Space2026年3月14日5 分钟阅读
上下文窗口停滞两年,AI 内存短缺成瓶颈
Anthropic 终于将 100 万上下文窗口模型推向正式版,但距离 Gemini 和 OpenAI 已晚了近一年。更关键的是,上下文窗口的增长已停滞两年,硬件内存短缺成为难以逾越的物理瓶颈。

今天,Anthropic 因其 100 万上下文窗口模型正式发布而受到关注,其 MRCR 结果在对抗上下文腐化(Context Rot)方面表现出色。

这很有用,任何能推迟“压缩迟钝区”的默认模型都受欢迎。但我们记得,100 万上下文窗口在 2024 年 3 月才正式发布,而 Gemini 在 2024 年 2 月就已实现,OpenAI 更是在上周推出了正式版。

距离理论上可能实现 100 万上下文窗口已经过去整整两年,这意味着上下文窗口在两年内的增长不到一个数量级,远慢于 LLM 在成本、速度和质量等其他维度的发展。这让人想起 Sam Altman 在 Town Hall 上的预测——他说上下文窗口将增长 100 倍……但我们对此持保留态度。

问题在于全球内存短缺。根本没有足够的 HBM 甚至 DRAM 来在推理端处理所有这些上下文。我们在与 Doug O’Laughlin 的播客中详细讨论了这一点:

swyx: 我经常告诉别人,包括 Sam 在内,大家都在预测更长的上下文窗口。但我们实际上已经被困在 100 万这个水平两年了。我一直在思考这个问题。这不会发展到一亿甚至万亿上下文窗口。未来五年、十年可能就这样了。

[01:45:48] Doug: 很可能。资本主义会起作用吗?供应会出现吗?也许。但更重要的是,你得画一条上下文窗口的曲线。比如免费版的上下文窗口会降到 1000 吗?你现在可以免费使用 ChatGPT,但上下文窗口可能只有 1000 个 token 左右。然后你可以对这部分收取极低的费用,再对 100 万上下文窗口收取 100 倍的价格。100 万上下文窗口就像一座豪宅。

[01:46:27] swyx: 天哪。“上下文配给”这个词突然冒出来了。我们以后可能会有配给券:你今天只能用这么多上下文。

对我来说,重要的是你代表了物理约束,这是我们软件端永远无法克服的。

[01:47:43] 因为这是物理约束。我们无法翻倍,更别说增长 10 倍了。

[01:47:53] Doug: 上下文配给。这个词不错。或者叫上下文节俭、上下文预算。感觉明年大家就会说:哎呀,你今天上下文窗口用完了。

记住这句话吧。我们敢打赌,未来两年内,上下文窗口不会显著超过 100 万——在 AI 领域,这可是个大赌注。

这是 2026 年 3 月 12 日至 13 日的 AI 新闻。我们检查了 12 个 subreddit、544 条推文,没有深入 Discord。AINews 网站可搜索过往所有内容。提醒一下,AINews 现在是 Latent Space 的一个栏目。你可以选择接收/取消接收邮件频率。

智能体基础设施、MCP 摩擦与持久化内存

  • 关于 MCP 的争论更多是易用性问题,而非需求问题:不少工程师在争论 MCP 是“已死”还是只是过度曝光。@pamelafox 开玩笑说“MCP 在 Twitter 上被宣布死亡,原因是大规模接触了 curl”,而 @tadasayy 反驳说使用量仍在激增。更实质性的观点来自 @llama_index:当你需要确定性的、集中维护的 API 和快速变化的事实依据时,MCP 工具(MCP Tools)很强;而 Skills 是更轻量级的本地自然语言流程,但更容易失败。相关地,@bromann 指出了 Chrome v146 中新的 Web MCP 支持,展示了一个持续浏览 X 并编译每日摘要的 LangChain Deep Agent。
  • 内存正成为智能体的差异化因素:最有趣的技术讨论围绕持久化内存和自我改进展开。@dair_ai 强调了 IBM 从智能体轨迹中提取可重用策略、恢复和优化技巧的工作,将 AppWorld 的任务完成率从 69.6% 提升到 73.2%场景目标达成率从 50.0% 提升到 64.3%,在困难任务上提升最大。同时,@omarsar0 总结了一篇论文,该论文将多智能体内存重新定义为计算机架构问题,涉及缓存/内存层次结构、一致性和访问控制问题,而不仅仅是“更多上下文”。这直接映射到像 Hermes Agent 这样的产品工作上,多条推文将其描述为一个可自托管的智能体,能随时间保留技能和用户特定内存(概述 via @abxxai演示 via @Teknium)。
  • 智能体用户体验正转向常驻、跨设备运行:多个发布将智能体推向“个人计算机作为编排器”。Perplexity Computer 登陆 iOS 并支持跨设备同步,让用户可以从手机或桌面启动或管理浏览器-计算机任务(公告Arav 跟进)。@bcherny 展示了 Claude Code 的类似流程,可以从手机启动笔记本电脑上的会话。Genspark 的 Claw 也被类似地定位为具有持久化云计算机的“AI 员工”(@kimmonismus 总结)。共同模式是:持久化会话状态、远程执行以及跨多个模型/工具的编排。

推理、长上下文与系统性能

  • Anthropic 悄然发布了本周较重要的基础设施相关更新Opus 4.6 100 万上下文成为 Max/Team/Enterprise 用户的默认选项(via @_catwu),同时 Anthropic 取消了 API 对长上下文的额外收费,移除了 Beta 头要求,并将媒体限制扩大到每个请求 600 张图片/PDF 页@alexalbert__ 的细节)。最引人注目的指标是在 100 万 token 下 MRCR v2 得分 78.3%,被多位观察者称为长上下文的新前沿高水位线(例如 @kimmonismus)。
  • 稀疏注意力优化仍在带来显著收益:来自 @realYushiBai 的一个突出系统线程介绍了 IndexCache,它在 DeepSeek Sparse Attention 中跨层重用稀疏注意力索引信息。报告收益:在 GLM-5 (744B) 上实现约 1.2 倍端到端加速且质量匹配;在一个 200K 上下文的 30B 规模实验模型上,在移除 75% 的索引器后,预填充速度提升 1.82 倍解码速度提升 1.48 倍。这值得注意,因为它针对的是生产规模的稀疏注意力堆栈,且“代码改动最小”——这正是实验室现在关心的那种实用优化。
  • KV/缓存和服务优化正扩展到自回归 LLM 之外@RisingSayak 强调了 Black Forest Labs 的 Klein KV,它将缓存的参考图像 KV 注入到后续 DiT 去噪步骤中,用于多参考编辑,声称速度提升高达 2.5 倍。在基础设施方面,@satyanadella 表示微软是首个验证 NVIDIA Vera Rubin NVL72 系统的云厂商,而 @LambdaAPI 则推动了 Rubin 时代集群“裸机优于虚拟机”的观点。@tinygrad 补充了一个更激进的终点:2027 年将出现一个作为单个巨型 Python 驱动 GPU 暴露的“exabox”。

后训练、RL 替代方案与评估研究

  • 一个引发讨论的后训练结果:随机高斯搜索可与 RL 微调媲美:讨论最多的研究主张来自 MIT 相关作者的 RandOpt / Neural Thickets,由 @yule_gan@phillip_isola 分享。其声称:通过对预训练模型权重添加高斯噪声并进行集成,可以在推理、编码、写作、化学和 VLM 任务上达到与 GRPO/PPO 相当或更好的性能。他们的解释是,大型预训练模型存在于局部“神经丛林”中,这些区域充满了有用的任务专家,使得后训练比标准优化直觉所暗示的要容易得多。
  • 通用数据回放和预预训练正重新获得关注@TheTuringPost 总结了斯坦福关于通用数据回放的工作,报告在微调期间有 1.87 倍改进,在中期训练期间有 2.06 倍改进,并带来具体下游收益,如在智能体网络导航上 +4.5%,在巴斯克语 QA 上 +2%。围绕“预预训练”的单独讨论表明,社区正在重新审视训练流程早期阶段的分阶段/混合设计,而不仅仅是后训练技巧(@teortaxesTex 的评论)。
  • 评估仍是瓶颈,尤其是在真实性和搜索策略方面@i 分享了 BrokenArXiv,其中即使是 GPT-5.4 也只拒绝了近期论文中 40% 的扰动错误数学陈述。@paul_cal 认为,这使 GPT-5.4 在证明验证式“废话检测”上比 Claude 有优势,即使其他真实性基准测试结果不同。对于检索/搜索,MADQA 发现智能体通过使用暴力搜索而非在文档上进行策略性导航,接近人类答案准确率,但与最优性能仍有约 20% 的差距via @HuggingPapers)。

开源发布、数据集与可复现性

(此为文章第一部分,后续内容未包含在本编译中。)

前沿生物学领域,OpenFold3 的新预览版完整得有点不寻常。Mohammed AlQuraishi 宣布了 OpenFold3 预览版 2,称其在多模态能力上大幅缩小了与 AlphaFold3 的差距。更重要的是,这次不仅发布了模型权重,还开源了训练数据集和配置,使其成为“目前唯一一个功能上可训练、且能从零开始复现的 AF3 类模型”。这个“可复现性”是关键——很多所谓的“开源”生物学模型发布,其实离端到端的可重新训练还差得远。

  • 为低资源语言语音数据添砖加瓦:Omar Sanseviero 宣布了 WAXAL,一个开放的多语言语音数据集,覆盖了 17 种非洲语言用于语音合成(TTS),以及 19 种用于语音识别(ASR)。随后 Google Research 进一步描述,该数据集总时长超过 2400 小时,涵盖 27 种撒哈拉以南非洲语言,使用者超过 1 亿。虽然不同帖子对语言和任务数量的统计略有出入,但都强调 WAXAL 是一个扎根社区、为非洲语音 AI 服务的宝贵资源。

  • 开源社区对训练数据的态度趋于宽松:最鲜明的表态来自 John Carmack,他认为开源代码是一份礼物,其价值会因 AI 训练而放大,而非削弱。Giff 和 Perry Metzger 也表达了类似观点。相对更细致的反对声音来自 Ryan Wightman,他担心编程智能体可能会绕过代码归属和许可的常规预期,从而打击维护者的积极性,并建议未来可能需要一套协议来规范智能体的合规行为。

开发者工具、编程智能体与研究自动化

  • 编程智能体工作流:更自主,也更固执己见:这周有很多工程师分享了从“副驾驶”模式转向多智能体软件工厂的案例。Mat Velloso 描述了一个由 5 个智能体负责代码审查、测试、安全和性能分析,外加 2 个智能体负责合并 PR 和运行回归检查的配置。Shawn Wang 将这一趋势精炼为“你的代码就是你的基础设施”。Gokul 和 Matan 则指出,FactoryAI 正成为一个越来越常见的“软件工厂”层。

  • 自主研究正成为产品类别,但并非全新概念:Karpathy 的“自主研究”项目及相关黑客松吸引了大量关注,但不少推文也指出,其概念与更早的系统如 DSPy、GEPA 和贝叶斯优化流程有重叠之处。最实用的建议来自 Daniel Breunig,他向对此类迭代式自我改进风格感兴趣的人推荐了 optimize_anything 项目。此外,Together AI 也发布了 Open Deep Research v2,开源了其应用、评估数据集、代码和博客文章。

本周高互动推文

  • xAI 招聘流程重置:Elon Musk 表示,xAI 正在审查过去的面试流程,并重新联系那些曾被拒绝但有潜力的候选人,承认此前可能错过了很多优秀人才。
  • Claude 的图表交互界面:Crystal 发布了对 Claude 新交互式图表用户体验的高度互动反应。
  • Perplexity Computer 登陆移动端:Perplexity AI 在 iOS 上推出了跨设备的 Computer 访问功能,这是本周将远程智能体执行产品化最清晰的例子之一。
  • 微软验证 Rubin NVL72:Satya Nadella 宣布 Azure 成为首个验证 NVIDIA Vera Rubin NVL72 的云平台。
  • Nous / Hermes 势头强劲:Hermes Agent 及其以记忆为中心的框架,通过 Teknium 等人的讨论引发了广泛关注,反映出市场对可自托管、持续改进的智能体执行框架(Harness)有着浓厚兴趣。
本文编译自 [AINews] Context Drought,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论