上下文窗口停滞两年,AI 内存短缺成瓶颈

今天,Anthropic 因其 100 万上下文窗口模型正式发布而受到关注,其 MRCR 结果在对抗上下文腐化(Context Rot)方面表现出色。

这很有用,任何能推迟“压缩迟钝区”的默认模型都受欢迎。但我们记得,100 万上下文窗口在 2024 年 3 月才正式发布,而 Gemini 在 2024 年 2 月就已实现,OpenAI 更是在上周推出了正式版。
距离理论上可能实现 100 万上下文窗口已经过去整整两年,这意味着上下文窗口在两年内的增长不到一个数量级,远慢于 LLM 在成本、速度和质量等其他维度的发展。这让人想起 Sam Altman 在 Town Hall 上的预测——他说上下文窗口将增长 100 倍……但我们对此持保留态度。
问题在于全球内存短缺。根本没有足够的 HBM 甚至 DRAM 来在推理端处理所有这些上下文。我们在与 Doug O’Laughlin 的播客中详细讨论了这一点:
swyx: 我经常告诉别人,包括 Sam 在内,大家都在预测更长的上下文窗口。但我们实际上已经被困在 100 万这个水平两年了。我一直在思考这个问题。这不会发展到一亿甚至万亿上下文窗口。未来五年、十年可能就这样了。
[01:45:48] Doug: 很可能。资本主义会起作用吗?供应会出现吗?也许。但更重要的是,你得画一条上下文窗口的曲线。比如免费版的上下文窗口会降到 1000 吗?你现在可以免费使用 ChatGPT,但上下文窗口可能只有 1000 个 token 左右。然后你可以对这部分收取极低的费用,再对 100 万上下文窗口收取 100 倍的价格。100 万上下文窗口就像一座豪宅。
[01:46:27] swyx: 天哪。“上下文配给”这个词突然冒出来了。我们以后可能会有配给券:你今天只能用这么多上下文。
对我来说,重要的是你代表了物理约束,这是我们软件端永远无法克服的。
[01:47:43] 因为这是物理约束。我们无法翻倍,更别说增长 10 倍了。
[01:47:53] Doug: 上下文配给。这个词不错。或者叫上下文节俭、上下文预算。感觉明年大家就会说:哎呀,你今天上下文窗口用完了。
记住这句话吧。我们敢打赌,未来两年内,上下文窗口不会显著超过 100 万——在 AI 领域,这可是个大赌注。
这是 2026 年 3 月 12 日至 13 日的 AI 新闻。我们检查了 12 个 subreddit、544 条推文,没有深入 Discord。AINews 网站可搜索过往所有内容。提醒一下,AINews 现在是 Latent Space 的一个栏目。你可以选择接收/取消接收邮件频率。
智能体基础设施、MCP 摩擦与持久化内存
- 关于 MCP 的争论更多是易用性问题,而非需求问题:不少工程师在争论 MCP 是“已死”还是只是过度曝光。@pamelafox 开玩笑说“MCP 在 Twitter 上被宣布死亡,原因是大规模接触了 curl”,而 @tadasayy 反驳说使用量仍在激增。更实质性的观点来自 @llama_index:当你需要确定性的、集中维护的 API 和快速变化的事实依据时,MCP 工具(MCP Tools)很强;而 Skills 是更轻量级的本地自然语言流程,但更容易失败。相关地,@bromann 指出了 Chrome v146 中新的 Web MCP 支持,展示了一个持续浏览 X 并编译每日摘要的 LangChain Deep Agent。
- 内存正成为智能体的差异化因素:最有趣的技术讨论围绕持久化内存和自我改进展开。@dair_ai 强调了 IBM 从智能体轨迹中提取可重用策略、恢复和优化技巧的工作,将 AppWorld 的任务完成率从 69.6% 提升到 73.2%,场景目标达成率从 50.0% 提升到 64.3%,在困难任务上提升最大。同时,@omarsar0 总结了一篇论文,该论文将多智能体内存重新定义为计算机架构问题,涉及缓存/内存层次结构、一致性和访问控制问题,而不仅仅是“更多上下文”。这直接映射到像 Hermes Agent 这样的产品工作上,多条推文将其描述为一个可自托管的智能体,能随时间保留技能和用户特定内存(概述 via @abxxai,演示 via @Teknium)。
- 智能体用户体验正转向常驻、跨设备运行:多个发布将智能体推向“个人计算机作为编排器”。Perplexity Computer 登陆 iOS 并支持跨设备同步,让用户可以从手机或桌面启动或管理浏览器-计算机任务(公告,Arav 跟进)。@bcherny 展示了 Claude Code 的类似流程,可以从手机启动笔记本电脑上的会话。Genspark 的 Claw 也被类似地定位为具有持久化云计算机的“AI 员工”(@kimmonismus 总结)。共同模式是:持久化会话状态、远程执行以及跨多个模型/工具的编排。
推理、长上下文与系统性能
- Anthropic 悄然发布了本周较重要的基础设施相关更新:Opus 4.6 100 万上下文成为 Max/Team/Enterprise 用户的默认选项(via @_catwu),同时 Anthropic 取消了 API 对长上下文的额外收费,移除了 Beta 头要求,并将媒体限制扩大到每个请求 600 张图片/PDF 页(@alexalbert__ 的细节)。最引人注目的指标是在 100 万 token 下 MRCR v2 得分 78.3%,被多位观察者称为长上下文的新前沿高水位线(例如 @kimmonismus)。
- 稀疏注意力优化仍在带来显著收益:来自 @realYushiBai 的一个突出系统线程介绍了 IndexCache,它在 DeepSeek Sparse Attention 中跨层重用稀疏注意力索引信息。报告收益:在 GLM-5 (744B) 上实现约 1.2 倍端到端加速且质量匹配;在一个 200K 上下文的 30B 规模实验模型上,在移除 75% 的索引器后,预填充速度提升 1.82 倍,解码速度提升 1.48 倍。这值得注意,因为它针对的是生产规模的稀疏注意力堆栈,且“代码改动最小”——这正是实验室现在关心的那种实用优化。
- KV/缓存和服务优化正扩展到自回归 LLM 之外:@RisingSayak 强调了 Black Forest Labs 的 Klein KV,它将缓存的参考图像 KV 注入到后续 DiT 去噪步骤中,用于多参考编辑,声称速度提升高达 2.5 倍。在基础设施方面,@satyanadella 表示微软是首个验证 NVIDIA Vera Rubin NVL72 系统的云厂商,而 @LambdaAPI 则推动了 Rubin 时代集群“裸机优于虚拟机”的观点。@tinygrad 补充了一个更激进的终点:2027 年将出现一个作为单个巨型 Python 驱动 GPU 暴露的“exabox”。
后训练、RL 替代方案与评估研究
- 一个引发讨论的后训练结果:随机高斯搜索可与 RL 微调媲美:讨论最多的研究主张来自 MIT 相关作者的 RandOpt / Neural Thickets,由 @yule_gan 和 @phillip_isola 分享。其声称:通过对预训练模型权重添加高斯噪声并进行集成,可以在推理、编码、写作、化学和 VLM 任务上达到与 GRPO/PPO 相当或更好的性能。他们的解释是,大型预训练模型存在于局部“神经丛林”中,这些区域充满了有用的任务专家,使得后训练比标准优化直觉所暗示的要容易得多。
- 通用数据回放和预预训练正重新获得关注:@TheTuringPost 总结了斯坦福关于通用数据回放的工作,报告在微调期间有 1.87 倍改进,在中期训练期间有 2.06 倍改进,并带来具体下游收益,如在智能体网络导航上 +4.5%,在巴斯克语 QA 上 +2%。围绕“预预训练”的单独讨论表明,社区正在重新审视训练流程早期阶段的分阶段/混合设计,而不仅仅是后训练技巧(@teortaxesTex 的评论)。
- 评估仍是瓶颈,尤其是在真实性和搜索策略方面:@i 分享了 BrokenArXiv,其中即使是 GPT-5.4 也只拒绝了近期论文中 40% 的扰动错误数学陈述。@paul_cal 认为,这使 GPT-5.4 在证明验证式“废话检测”上比 Claude 有优势,即使其他真实性基准测试结果不同。对于检索/搜索,MADQA 发现智能体通过使用暴力搜索而非在文档上进行策略性导航,接近人类答案准确率,但与最优性能仍有约 20% 的差距(via @HuggingPapers)。
开源发布、数据集与可复现性
(此为文章第一部分,后续内容未包含在本编译中。)
前沿生物学领域,OpenFold3 的新预览版完整得有点不寻常。Mohammed AlQuraishi 宣布了 OpenFold3 预览版 2,称其在多模态能力上大幅缩小了与 AlphaFold3 的差距。更重要的是,这次不仅发布了模型权重,还开源了训练数据集和配置,使其成为“目前唯一一个功能上可训练、且能从零开始复现的 AF3 类模型”。这个“可复现性”是关键——很多所谓的“开源”生物学模型发布,其实离端到端的可重新训练还差得远。
-
为低资源语言语音数据添砖加瓦:Omar Sanseviero 宣布了 WAXAL,一个开放的多语言语音数据集,覆盖了 17 种非洲语言用于语音合成(TTS),以及 19 种用于语音识别(ASR)。随后 Google Research 进一步描述,该数据集总时长超过 2400 小时,涵盖 27 种撒哈拉以南非洲语言,使用者超过 1 亿。虽然不同帖子对语言和任务数量的统计略有出入,但都强调 WAXAL 是一个扎根社区、为非洲语音 AI 服务的宝贵资源。
-
开源社区对训练数据的态度趋于宽松:最鲜明的表态来自 John Carmack,他认为开源代码是一份礼物,其价值会因 AI 训练而放大,而非削弱。Giff 和 Perry Metzger 也表达了类似观点。相对更细致的反对声音来自 Ryan Wightman,他担心编程智能体可能会绕过代码归属和许可的常规预期,从而打击维护者的积极性,并建议未来可能需要一套协议来规范智能体的合规行为。
开发者工具、编程智能体与研究自动化
-
编程智能体工作流:更自主,也更固执己见:这周有很多工程师分享了从“副驾驶”模式转向多智能体软件工厂的案例。Mat Velloso 描述了一个由 5 个智能体负责代码审查、测试、安全和性能分析,外加 2 个智能体负责合并 PR 和运行回归检查的配置。Shawn Wang 将这一趋势精炼为“你的代码就是你的基础设施”。Gokul 和 Matan 则指出,FactoryAI 正成为一个越来越常见的“软件工厂”层。
-
自主研究正成为产品类别,但并非全新概念:Karpathy 的“自主研究”项目及相关黑客松吸引了大量关注,但不少推文也指出,其概念与更早的系统如 DSPy、GEPA 和贝叶斯优化流程有重叠之处。最实用的建议来自 Daniel Breunig,他向对此类迭代式自我改进风格感兴趣的人推荐了
optimize_anything项目。此外,Together AI 也发布了 Open Deep Research v2,开源了其应用、评估数据集、代码和博客文章。
本周高互动推文
- xAI 招聘流程重置:Elon Musk 表示,xAI 正在审查过去的面试流程,并重新联系那些曾被拒绝但有潜力的候选人,承认此前可能错过了很多优秀人才。
- Claude 的图表交互界面:Crystal 发布了对 Claude 新交互式图表用户体验的高度互动反应。
- Perplexity Computer 登陆移动端:Perplexity AI 在 iOS 上推出了跨设备的 Computer 访问功能,这是本周将远程智能体执行产品化最清晰的例子之一。
- 微软验证 Rubin NVL72:Satya Nadella 宣布 Azure 成为首个验证 NVIDIA Vera Rubin NVL72 的云平台。
- Nous / Hermes 势头强劲:Hermes Agent 及其以记忆为中心的框架,通过 Teknium 等人的讨论引发了广泛关注,反映出市场对可自托管、持续改进的智能体执行框架(Harness)有着浓厚兴趣。
觉得有用?分享给更多人