AINews:Harness Engineering 到底是不是一门真学问?

在我做金融的那些年,一个常见争论是:人的价值 vs 席位(seat)的价值。如果一个交易员赚了 300 万美元利润,其中有多少来自她个人能力?又有多少来自她所在的岗位/机构/品牌——换成任何一个足够称职的人也能做出类似结果?
同样的争论,现在正在 “Harness Engineering”(Agent Engineering 的系统子集,也是 Agent Labs 的核心工作)中激烈上演。核心张力在于 Big Model 和 Big Harness。一位“你们都认识的 AI 框架创始人”曾在 OpenAI 的活动上私下对我说:“我甚至不确定这些人到底希不希望我存在。”
补充一句:先定义一下 Harness——“在所有工程学科里,harness 本质上都一样:它是连接、保护并编排各组件的那一层——但它本身不直接完成业务工作。”
而且,和 Big Model 阵营的人聊多了,你会非常明显地感受到这一点:
-
几乎每一期 Boris Cherny 和 Cat Wu 的播客都在强调 Claude Code 的 harness 有多“薄”。也就是说,他们的工作主要是在尽可能释放模型本身的能力——而这种释放方式,只有模型厂商最懂:
-
Boris:“我会说源码里没什么真正秘密的东西。显然它全是 JavaScript,你可以直接反编译。编译产物也都在外面。很有意思。总体上我们的做法是:所有秘密武器都在模型里。这个只是模型之上的最薄封装。我们基本不可能做出比这更精简的东西了。这已经是最小化实现。”
-
Cat [01:09:21]:这基本上就是“最简单的东西”,而且是刻意这么设计的。
-
Boris [01:09:25]:它变得越来越简单,而不是更复杂。我们大概每三四周就会从头重写一次。它有点像忒修斯之船(ship of Theseus):每个部件都不断被替换,原因就是 Claude 太擅长自己写自己的代码了。
-
-
OpenAI 的官方 Harness Engineering 文章(Codex 团队即将出场嘉宾 Ryan Lopopolo 也在其中)也强调:上手其实很简单。当然,随着对 OpenClaw 的“execuhire”,OpenAI 现在也成了全球最成功开源 harness 的重要利益相关方。
-
Noam Brown:“在 reasoning models 出现之前,大家投入了大量工程工作去搭 agentic systems:通过大量调用 GPT-4o 这类非推理模型,去‘拼’出推理行为。后来我们直接做出了 reasoning models,就发现这些复杂机制不再需要了。很多时候反而会更糟。你把同一个问题直接给 reasoning model,不加脚手架(scaffolding),它就能做。现在人们还在 reasoning models 之上继续搭脚手架,但我认为很多这类脚手架也会被更强的 reasoning models,乃至更通用的更强模型所替代。类似地,像 model router 这样的东西,我们也很公开地说过,我们想走向单一统一模型的世界。在那种世界里,你不应该再需要模型之上的 router。”
-
METR 指出 Claude Code 和 Codex 并未明显超过基础 scaffold:
[

-
Scale AI 的 SWE-Atlas 发现:Opus 4.6 在 Claude Code 中比在通用 SWE-Agent 高 2.5 分;但 GPT 5.2 则相反。这意味着你选哪种 harness,很多时候都可能只是误差范围内的噪声:
[

但话又说回来,Big Harness 阵营并不同意:
-
-
所有生产级 agent 最终都会收敛到这个核心循环:
while (model returns tool calls):
execute tool → capture result → append to context → call model again就这么简单。Claude Code、Cursor 的 agent、Manus 的整体架构,本质上都能装进这个循环里。
-
-
Jerry Liu:“Model Harness 就是一切——从 AI 中获取价值的最大障碍,是你自己做 context engineering 和 workflow engineering 的能力。你使用的工具越偏通用(horizontal),这一点就越明显。”
[

-
Improving 15 LLMs at Coding in One Afternoon. Only the Harness Changed 这篇文章显示:仅优化 harness(Pi),就能让所有模型的编程表现显著提升。
很显然,Big Harness 在卖他们的 Harness,Big Model 在卖他们的 Model。ML/AI 行业一直都有某种不痛不痒的 “compound AI” 讨论,告诉你“二者都重要”。但也许时代正在变化。
在 Latent Space,我们一直非常、非常尊重 Bitter Lesson。但随着 Agent Labs 这条路线逐步兑现(Cursor 估值已经到 500 亿美元),我们也开始承认:“Harness Engineering”确实有真实价值。AIE Europe 现在已经设立了全球首个 Harness Engineering 专题赛道;如果你对这场争论感兴趣,欢迎加入。
AI News for 3/3/2026-3/4/2026。我们为你检查了 12 个 subreddits、544 个 Twitter 账号 和 24 个 Discord(共 264 个频道、14242 条消息)。按 200wpm 估算,为你节省阅读时间 1397 分钟。AINews 官网 可检索全部往期。提醒一下,AINews 现已并入 Latent Space 的一个栏目。你可以自由订阅/退订不同邮件频率!
前沿模型发布动态:Gemini 3.1 Flash-Lite、GPT-5.4 传闻,以及“agent-first”产品定位
-
Gemini 3.1 Flash-Lite 的定位(速度/$):Demis Hassabis 预告 Gemini 3.1 Flash-Lite 在对应性能下“快得惊人且成本效率极高”——明显是在按“延迟与单位能力成本”来定义产品线,而不是只比拼前沿榜单分数(tweet)。相关产品讨论还提到 NotebookLM 是“最喜欢的 AI 工具”之一(tweet),以及 NotebookLM Studio 的重大新功能:面向 Ultra 用户推出 Cinematic Video Overviews,可基于用户资料生成定制化、沉浸式视频(tweet)。
-
GPT-5.4 爆料叙事(The Information):多条推文在传播一则消息:GPT-5.4 将具备 约 100 万 Token 上下文窗口,并新增可“思考数小时”的 extreme reasoning mode,目标是提升长周期 agentic workflow 能力并降低复杂任务错误率(tweet, tweet, tweet)。另有猜测称 OpenAI 可能转向更高频(月更)的模型更新(tweet)。此外,有 arena 观察者声称“GPT-5.4 已进入 arena”,暗示发布窗口临近(tweet)。在 OpenAI 官方确认前,这些信息都应视为未证实。
-
Claude 的领先点是“agent 行为”,不只是 coding:Nat Lambert 认为讨论焦点应从 Anthropic“全面押注代码”转向其在通用 agent 行为上的领先;潜台词是 coding 能力会商品化,但 agent 鲁棒性不会(tweet)。MathArena 的评测补充了一个观察:Claude Opus 4.6 总体表现强,但在视觉数学上偏弱,且评测成本高(声称约 8000 美元)(tweet)。
原文链接:https://www.latent.space/p/ainews-is-harness-engineering-real

