S
SkillNav

[AINews] “闭环”效应为何出奇有效

深度2026-02-25T02:18:56+00:0012 分钟阅读
[AINews] “闭环”效应为何出奇有效

通过今天这几十个中型发布(其余总结见下文),我们看到一个共同主题,我把它称为“闭环”:

在 DevTools 行业里,我们常说“内循环(inner loop)”与“外循环(outer loop)”:前者发生在 IDE 内部,通常被“压缩”进一次 git commit;后者发生在云端,处于多次 git commit “之间”,例如每次 git push 之后。2010 年代很长一段时间里,主要创新都在“外循环”——GitLab、多个 CI/CD 独角兽、GitHub、Netlify/Vercel 等层出不穷;而“内循环”通常是免费开源生态(很多由 Microsoft 推动,后来 Facebook 与 Atlassian/Vercel 也贡献很多)——比如 VSCode、Language Servers、TypeScript、Prettier 等。

但在 AI 时代,局势发生了明显反转——Copilot 开启了内循环编码 Agent 应用浪潮,随后由 Cursor 等产品领跑;外循环工具虽然也因 AI 得到增长,但形态变化相对有限(或者说 AI SRE、AI Data Engineering 这些类别明显推进艰难)。

今天,不少头部编码 Agent 公司都在朝“闭合外循环(Close the Outer Loop)”迈进。作为配图,最先想到的是几周前 Devin Autofix 发布的 og:image:

[

](https://substackcdn.com/image/fetch/$s_!-p7X!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6308ab6a-efac-48ed-b2ba-d2c569bec220_3840x2160.png)

上面这个案例只覆盖了 review comments,但“外循环闭环”其实还有很多实现方式。比如 Cursor 今天备受期待的大更新,把完整 computer use与视频输出结合起来,让你用高带宽方式审阅结果,而不仅仅盯着代码 diff:

[

X avatar for @cursor_ai

Cursor@cursor_ai

Cursor 现在给你看的是 demo,而不是 diff。Agent 可以直接使用它们构建的软件,并把工作过程视频发给你。

6:53 PM · Feb 24, 2026 · 1.14M Views

214 Replies · 242 Reposts · 3.67K Likes

](https://x.com/cursor_ai/status/2026369873321013568?s=20)

Claude Code 在一周年之际(我们在今天的特别播客和简短回顾里也聊到了)发布了 面向 Max 用户的 Remote Control,让用户可以在手机上完成闭环,而不必一直待在终端这个内循环环境中:

[

X avatar for @claudeai

Claude@claudeai

](https://x.com/claudeai/status/2026418433911603668)

10:06 PM · Feb 24, 2026 · 2.08M Views

829 Replies · 1.9K Reposts · 19.1K Likes

最后但同样重要的是,Cognition 发布了 Devin 2.2,其中一个 headline 功能是 Devin Review 现在会自动闭环回流到 Devin 运行流程中。

如果你愿意,也可以把这些变化视作上个月社交媒体里流行的“Ralph Loops”的泛化版本:目前往往仍有人类在环(human in the loop),但占比正随时间下降。

今天还有一些中型发布也不该错过,放在平时都足以单独当头条——Notion Custom Agents、Inception Mercury 2,以及更小体量的 Qwen 3.5 变体。

前沿模型生态:Qwen 3.5“中型系列”与 open-weight 动能

  • Qwen 3.5 Medium Model Series:阿里发布了一组范围明确、主打“更高智能、更低算力”的模型——Qwen3.5-Flash(托管)、Qwen3.5-35B-A3B (MoE)Qwen3.5-122B-A10B (MoE)Qwen3.5-27B (dense)。其观点是:架构 + 数据 + RL 的组合,可能优于单纯参数规模扩张。值得注意的细节包括:Flash 默认 1M context,且托管版本内置工具。完整公告及 Hugging Face/ModelScope/API 链接见 @Alibaba_Qwen

    • 早期开发者反馈强调 35B-A3B122B-A10B 的实战强度(如 @andrew_n_carr@JustinLin610),以及 @awnihannun 提到的“单位功耗智能”含义——35B 模型超过 235B 前代

    • 部署/serving 栈演进很快:社区工具迅速跟进——@UnslothAI 给出 GGUF 与规格建议,本地部署热情也很高,如 @terryyuezhuo 的“35B-A3B is all you need”。Qwen 还强调了 SGLang 支持(tweet)。

    • 量化 + “local frontier”趋势:INT4 版本已出现(重复贴文)来自 @HaihaoShen,用户也在持续推进更激进的量化流程(例如 @0xSero 对 Unsloth 超低比特本地 Qwen 的肯定)。

    • 评测信号:Qwen 旗舰 Qwen3.5-397B-A17B 在 HF 上形成趋势(@Ali_TongyiLab),并在 Code Arena 的 agentic webdev 风格评测中表现突出(Arena post)。Arena 还发布了相对 Qwen 3.0 的排名变化(comparison)。

OpenAI + Anthropic:“编码 Agent 作为产品表层能力”(API、远程控制、web sockets、proof-of-work UX)

  • OpenAI:Responses API 引入 GPT-5.3-Codex:OpenAI 通过 Responses API 向全部开发者上线 GPT-5.3-Codexannouncement);@scaling01 引述的价格为(按 tweet):$1.75 input / $14 output。OpenAI 同时扩展了 Agent 的文件输入类型(docx/pptx/csv/xlsx 等),可直接摄取“真实世界文件”(tweet)。

    • 基础设施细节:web sockets 正成为提升 Agent 吞吐的关键杠杆——@gdb 称可实现 “30% faster rollouts”。这也呼应了社区对 websockets 为何推进较慢、以及状态存储位于上游还是 VRAM 的讨论(threadfollow-up)。

    • 基准表现:第三方榜单贴文称 Codex 5.3 在 TerminalBench/IOI/LiveCodeBench/VibeCodeBench 上排名靠前(ValsAI)。

  • Anthropic:“Claude Code Remote Control” + 企业工作流推进:Anthropic 为 Claude Code 引入“Remote Control”——可先在本地启动终端会话,再在手机上继续。最初由 @noahzweben 透露,随后由 @claudeai 官宣,并有 @_catwu 确认 rollout。

    • 另一个企业向动作是“Cowork and plugin updates”,用于团队级 Claude 定制,互动数据极高(@claudeai)。
  • Cursor:“review 看 demo 视频,不再只看 diff”:Cursor 宣布重大 UX 转向——Agent 可以亲自运行其构建的软件,并发送工作视频(“demos, not diffs”)(launchlinks)。多位开发者认为,云端 Agent 在异步协作、基于 VM 测试、自验证、产出 demo artifact 等方面带来实用级跃迁(exampleanother“creative director over sims”)。

语言扩散模型:Inception Labs Mercury 2 与“速度成为下一战场”

  • Mercury 2(“reasoning diffusion LLM”):Inception Labs 发布 Mercury 2,定位为面向生产的 diffusion LLM,输出速度达到 ~1,000 output tokens/sStefano Ermon)。Artificial Analysis 的判断是:它并非智能水平上的 frontier 领跑者,但在输出速度上异常强劲,同时具备尚可的 agentic/coding 评测表现,包括 Terminal-Bench Hard 与 IFBench 相关对比(analysis thread)。

  • 这些贴文更深层的共同结论是:团队正在押注架构层面的并行 token refinement(diffusion)能够让多步 Agent 闭环与语音助手体验更“原生”、更少“批处理感”(见 @LiorOnAI 的架构解释)。这也与另一类广泛观点并行:2026 年竞争焦点可能是 latency + throughput,而不只是 benchmark 峰值。

Agents:可靠性、安全失效、memory/context 腐化,以及新多语评测

  • Agent 可靠性未跟上能力增长:普林斯顿主导项目系统化测量 capability–reliability gap,将可靠性拆解为 12 个维度,发现即便能力大幅提升,可靠性增幅仍有限(paper + dashboard;补充评论见 @random_walker)。这与开发者长期直觉一致:Agent 存在顽固的“长尾失败”,类似自动驾驶系统演进中的问题(ahall_research)。

  • OpenClaw 与“常规步骤拆解”安全绕过:一个具体失效模式是:把危险命令拆成若干常规步骤,安全机制就失效,文中甚至提到清空 inbox 的行为;作者声称给出了开源修复方案(paper thread)。

  • AGENTS.md(及同类文件)可能有副作用:两则高信号贴文总结了相关研究:LLM 生成的 context 文件会降低成功率、提高成本;开发者手写的最小上下文略有帮助,但同样增加成本。论文总结见 @omarsar0,实践写法指南见 @_philschmid

  • 新的 SWE-bench Multilingual 榜单:评估软件工程 Agent 正在走出英语/Python 单一语境。该榜单覆盖 9 种语言、300 个任务,且都不来自 SWE-bench Verified,报告 SOTA 为 72%launch;更多统计见 @KLieret)。其意义在于:模型排名在不同语言下可能反转,这对全球开发工具与数据采集策略都很关键。

数据与基准:OCR 饱和、“新优化器”争议、以及 adaptive/continual data 叙事

  • OCR/文档解析基准趋于饱和:多条贴文认为 OmniDocBench 已逼近天花板(例如 ~95%,但真实文档仍会失败),且 exact-match 指标会惩罚语义正确的解析。参见 @llama_index@jerryjliu0。相关讨论还包括:为何在廉价合成数据已普及的情况下 OCR 仍然困难(gabriberton),以及一项研究称 PDF QA 中文本抽取优于图像表征(cwolferesearch)。

  • “Nature MI optimizer”争议:一篇高技术密度批评指出某新优化器论文可能存在可疑 baseline 与潜在 test-set 超参数选择问题(图表效果非常“戏剧化”),呼吁独立复现与更充分调参的 baseline(如 nanogpt speedrun)(giffmana;更多实验背景见 @YouJiacheng)。

  • Adaption Labs:“Adaptive Data”:多条 tweet 在推一个叙事:从静态数据集转向“活资产”闭环,并声称在 242 种语言上平均质量提升 82%,同时开启 early access/community program(company;补充框架见 @sarahookr;第三方转述在此)。在更多方法细节公开前,更适合作为方向性判断(数据漂移/反馈闭环),而非既定标准。

算力、芯片与机器人:Meta–AMD 大单、MatX 的“HBM+SRAM”押注、以及人形控制扩展

  • Meta ↔ AMD 基础设施合作:Meta 宣布与 AMD 达成多年协议,将 AMD Instinct GPU 整合进部署,规划数据中心容量约 ~6GW@AIatMeta)。评论认为这是 NVIDIA 财报前夕的重要 capex/compute 信号(kimmonismus)。

  • MatX “One” 加速器:MatX 宣布 5 亿美元 Series B,提出将 systolic-array efficiency 与小矩阵场景下更高利用率结合的芯片架构,目标是 高吞吐 + 低延迟,并明确用 HBM 处理长上下文,同时保留 SRAM-first 的延迟特性(reinerpope)。Karpathy 指出其核心约束是“双内存池”(SRAM vs DRAM/HBM),并将 memory+compute 编排视为关键难题。

[... 内容已截断 ...]

原文链接:https://www.latent.space/p/ainews-the-unreasonable-effectiveness

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟