[AINews] “闭环”效应为何出奇有效
![[AINews] “闭环”效应为何出奇有效](https://substackcdn.com/image/fetch/$s_!-p7X!,w_1200,h_675,c_fill,f_jpg,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6308ab6a-efac-48ed-b2ba-d2c569bec220_3840x2160.png)
通过今天这几十个中型发布(其余总结见下文),我们看到一个共同主题,我把它称为“闭环”:
在 DevTools 行业里,我们常说“内循环(inner loop)”与“外循环(outer loop)”:前者发生在 IDE 内部,通常被“压缩”进一次 git commit;后者发生在云端,处于多次 git commit “之间”,例如每次 git push 之后。2010 年代很长一段时间里,主要创新都在“外循环”——GitLab、多个 CI/CD 独角兽、GitHub、Netlify/Vercel 等层出不穷;而“内循环”通常是免费开源生态(很多由 Microsoft 推动,后来 Facebook 与 Atlassian/Vercel 也贡献很多)——比如 VSCode、Language Servers、TypeScript、Prettier 等。
但在 AI 时代,局势发生了明显反转——Copilot 开启了内循环编码 Agent 应用浪潮,随后由 Cursor 等产品领跑;外循环工具虽然也因 AI 得到增长,但形态变化相对有限(或者说 AI SRE、AI Data Engineering 这些类别明显推进艰难)。
今天,不少头部编码 Agent 公司都在朝“闭合外循环(Close the Outer Loop)”迈进。作为配图,最先想到的是几周前 Devin Autofix 发布的 og:image:
[

上面这个案例只覆盖了 review comments,但“外循环闭环”其实还有很多实现方式。比如 Cursor 今天备受期待的大更新,把完整 computer use与视频输出结合起来,让你用高带宽方式审阅结果,而不仅仅盯着代码 diff:
[

Cursor@cursor_ai
Cursor 现在给你看的是 demo,而不是 diff。Agent 可以直接使用它们构建的软件,并把工作过程视频发给你。
6:53 PM · Feb 24, 2026 · 1.14M Views
214 Replies · 242 Reposts · 3.67K Likes
](https://x.com/cursor_ai/status/2026369873321013568?s=20)
Claude Code 在一周年之际(我们在今天的特别播客和简短回顾里也聊到了)发布了 面向 Max 用户的 Remote Control,让用户可以在手机上完成闭环,而不必一直待在终端这个内循环环境中:
[

Claude@claudeai
](https://x.com/claudeai/status/2026418433911603668)
10:06 PM · Feb 24, 2026 · 2.08M Views
829 Replies · 1.9K Reposts · 19.1K Likes
最后但同样重要的是,Cognition 发布了 Devin 2.2,其中一个 headline 功能是 Devin Review 现在会自动闭环回流到 Devin 运行流程中。
如果你愿意,也可以把这些变化视作上个月社交媒体里流行的“Ralph Loops”的泛化版本:目前往往仍有人类在环(human in the loop),但占比正随时间下降。
今天还有一些中型发布也不该错过,放在平时都足以单独当头条——Notion Custom Agents、Inception Mercury 2,以及更小体量的 Qwen 3.5 变体。
前沿模型生态:Qwen 3.5“中型系列”与 open-weight 动能
-
Qwen 3.5 Medium Model Series:阿里发布了一组范围明确、主打“更高智能、更低算力”的模型——Qwen3.5-Flash(托管)、Qwen3.5-35B-A3B (MoE)、Qwen3.5-122B-A10B (MoE)、Qwen3.5-27B (dense)。其观点是:架构 + 数据 + RL 的组合,可能优于单纯参数规模扩张。值得注意的细节包括:Flash 默认 1M context,且托管版本内置工具。完整公告及 Hugging Face/ModelScope/API 链接见 @Alibaba_Qwen。
-
早期开发者反馈强调 35B-A3B 与 122B-A10B 的实战强度(如 @andrew_n_carr、@JustinLin610),以及 @awnihannun 提到的“单位功耗智能”含义——35B 模型超过 235B 前代。
-
部署/serving 栈演进很快:社区工具迅速跟进——@UnslothAI 给出 GGUF 与规格建议,本地部署热情也很高,如 @terryyuezhuo 的“35B-A3B is all you need”。Qwen 还强调了 SGLang 支持(tweet)。
-
量化 + “local frontier”趋势:INT4 版本已出现(重复贴文)来自 @HaihaoShen,用户也在持续推进更激进的量化流程(例如 @0xSero 对 Unsloth 超低比特本地 Qwen 的肯定)。
-
评测信号:Qwen 旗舰 Qwen3.5-397B-A17B 在 HF 上形成趋势(@Ali_TongyiLab),并在 Code Arena 的 agentic webdev 风格评测中表现突出(Arena post)。Arena 还发布了相对 Qwen 3.0 的排名变化(comparison)。
-
OpenAI + Anthropic:“编码 Agent 作为产品表层能力”(API、远程控制、web sockets、proof-of-work UX)
-
OpenAI:Responses API 引入 GPT-5.3-Codex:OpenAI 通过 Responses API 向全部开发者上线 GPT-5.3-Codex(announcement);@scaling01 引述的价格为(按 tweet):$1.75 input / $14 output。OpenAI 同时扩展了 Agent 的文件输入类型(docx/pptx/csv/xlsx 等),可直接摄取“真实世界文件”(tweet)。
-
Anthropic:“Claude Code Remote Control” + 企业工作流推进:Anthropic 为 Claude Code 引入“Remote Control”——可先在本地启动终端会话,再在手机上继续。最初由 @noahzweben 透露,随后由 @claudeai 官宣,并有 @_catwu 确认 rollout。
- 另一个企业向动作是“Cowork and plugin updates”,用于团队级 Claude 定制,互动数据极高(@claudeai)。
-
Cursor:“review 看 demo 视频,不再只看 diff”:Cursor 宣布重大 UX 转向——Agent 可以亲自运行其构建的软件,并发送工作视频(“demos, not diffs”)(launch、links)。多位开发者认为,云端 Agent 在异步协作、基于 VM 测试、自验证、产出 demo artifact 等方面带来实用级跃迁(example、another、“creative director over sims”)。
语言扩散模型:Inception Labs Mercury 2 与“速度成为下一战场”
-
Mercury 2(“reasoning diffusion LLM”):Inception Labs 发布 Mercury 2,定位为面向生产的 diffusion LLM,输出速度达到 ~1,000 output tokens/s(Stefano Ermon)。Artificial Analysis 的判断是:它并非智能水平上的 frontier 领跑者,但在输出速度上异常强劲,同时具备尚可的 agentic/coding 评测表现,包括 Terminal-Bench Hard 与 IFBench 相关对比(analysis thread)。
-
这些贴文更深层的共同结论是:团队正在押注架构层面的并行 token refinement(diffusion)能够让多步 Agent 闭环与语音助手体验更“原生”、更少“批处理感”(见 @LiorOnAI 的架构解释)。这也与另一类广泛观点并行:2026 年竞争焦点可能是 latency + throughput,而不只是 benchmark 峰值。
Agents:可靠性、安全失效、memory/context 腐化,以及新多语评测
-
Agent 可靠性未跟上能力增长:普林斯顿主导项目系统化测量 capability–reliability gap,将可靠性拆解为 12 个维度,发现即便能力大幅提升,可靠性增幅仍有限(paper + dashboard;补充评论见 @random_walker)。这与开发者长期直觉一致:Agent 存在顽固的“长尾失败”,类似自动驾驶系统演进中的问题(ahall_research)。
-
OpenClaw 与“常规步骤拆解”安全绕过:一个具体失效模式是:把危险命令拆成若干常规步骤,安全机制就失效,文中甚至提到清空 inbox 的行为;作者声称给出了开源修复方案(paper thread)。
-
AGENTS.md(及同类文件)可能有副作用:两则高信号贴文总结了相关研究:LLM 生成的 context 文件会降低成功率、提高成本;开发者手写的最小上下文略有帮助,但同样增加成本。论文总结见 @omarsar0,实践写法指南见 @_philschmid。
-
新的 SWE-bench Multilingual 榜单:评估软件工程 Agent 正在走出英语/Python 单一语境。该榜单覆盖 9 种语言、300 个任务,且都不来自 SWE-bench Verified,报告 SOTA 为 72%(launch;更多统计见 @KLieret)。其意义在于:模型排名在不同语言下可能反转,这对全球开发工具与数据采集策略都很关键。
数据与基准:OCR 饱和、“新优化器”争议、以及 adaptive/continual data 叙事
-
OCR/文档解析基准趋于饱和:多条贴文认为 OmniDocBench 已逼近天花板(例如 ~95%,但真实文档仍会失败),且 exact-match 指标会惩罚语义正确的解析。参见 @llama_index 与 @jerryjliu0。相关讨论还包括:为何在廉价合成数据已普及的情况下 OCR 仍然困难(gabriberton),以及一项研究称 PDF QA 中文本抽取优于图像表征(cwolferesearch)。
-
“Nature MI optimizer”争议:一篇高技术密度批评指出某新优化器论文可能存在可疑 baseline 与潜在 test-set 超参数选择问题(图表效果非常“戏剧化”),呼吁独立复现与更充分调参的 baseline(如 nanogpt speedrun)(giffmana;更多实验背景见 @YouJiacheng)。
-
Adaption Labs:“Adaptive Data”:多条 tweet 在推一个叙事:从静态数据集转向“活资产”闭环,并声称在 242 种语言上平均质量提升 82%,同时开启 early access/community program(company;补充框架见 @sarahookr;第三方转述在此)。在更多方法细节公开前,更适合作为方向性判断(数据漂移/反馈闭环),而非既定标准。
算力、芯片与机器人:Meta–AMD 大单、MatX 的“HBM+SRAM”押注、以及人形控制扩展
-
Meta ↔ AMD 基础设施合作:Meta 宣布与 AMD 达成多年协议,将 AMD Instinct GPU 整合进部署,规划数据中心容量约 ~6GW(@AIatMeta)。评论认为这是 NVIDIA 财报前夕的重要 capex/compute 信号(kimmonismus)。
-
MatX “One” 加速器:MatX 宣布 5 亿美元 Series B,提出将 systolic-array efficiency 与小矩阵场景下更高利用率结合的芯片架构,目标是 高吞吐 + 低延迟,并明确用 HBM 处理长上下文,同时保留 SRAM-first 的延迟特性(reinerpope)。Karpathy 指出其核心约束是“双内存池”(SRAM vs DRAM/HBM),并将 memory+compute 编排视为关键难题。
[... 内容已截断 ...]
原文链接:https://www.latent.space/p/ainews-the-unreasonable-effectiveness

