S
SkillNav

AINews:Harness Engineering 到底是不是一门真学问?

深度2026-03-05T02:13:36+00:0010 分钟阅读
AINews:Harness Engineering 到底是不是一门真学问?

在我做金融的那些年,一个常见争论是:人的价值 vs 席位(seat)的价值。如果一个交易员赚了 300 万美元利润,其中有多少来自她个人能力?又有多少来自她所在的岗位/机构/品牌——换成任何一个足够称职的人也能做出类似结果?

同样的争论,现在正在 “Harness Engineering”(Agent Engineering 的系统子集,也是 Agent Labs 的核心工作)中激烈上演。核心张力在于 Big ModelBig Harness。一位“你们都认识的 AI 框架创始人”曾在 OpenAI 的活动上私下对我说:“我甚至不确定这些人到底希不希望我存在。”

补充一句:先定义一下 Harness——“在所有工程学科里,harness 本质上都一样:它是连接、保护并编排各组件的那一层——但它本身不直接完成业务工作。”

而且,和 Big Model 阵营的人聊多了,你会非常明显地感受到这一点:

但话又说回来,Big Harness 阵营并不同意:

很显然,Big Harness 在卖他们的 Harness,Big Model 在卖他们的 Model。ML/AI 行业一直都有某种不痛不痒的 “compound AI” 讨论,告诉你“二者都重要”。但也许时代正在变化。

在 Latent Space,我们一直非常、非常尊重 Bitter Lesson。但随着 Agent Labs 这条路线逐步兑现(Cursor 估值已经到 500 亿美元),我们也开始承认:“Harness Engineering”确实有真实价值。AIE Europe 现在已经设立了全球首个 Harness Engineering 专题赛道;如果你对这场争论感兴趣,欢迎加入。

AI News for 3/3/2026-3/4/2026。我们为你检查了 12 个 subreddits、544 个 Twitter 账号 和 24 个 Discord(共 264 个频道、14242 条消息)。按 200wpm 估算,为你节省阅读时间 1397 分钟。AINews 官网 可检索全部往期。提醒一下,AINews 现已并入 Latent Space 的一个栏目。你可以自由订阅/退订不同邮件频率!

前沿模型发布动态:Gemini 3.1 Flash-Lite、GPT-5.4 传闻,以及“agent-first”产品定位

  • Gemini 3.1 Flash-Lite 的定位(速度/$):Demis Hassabis 预告 Gemini 3.1 Flash-Lite 在对应性能下“快得惊人且成本效率极高”——明显是在按“延迟与单位能力成本”来定义产品线,而不是只比拼前沿榜单分数(tweet)。相关产品讨论还提到 NotebookLM 是“最喜欢的 AI 工具”之一(tweet),以及 NotebookLM Studio 的重大新功能:面向 Ultra 用户推出 Cinematic Video Overviews,可基于用户资料生成定制化、沉浸式视频(tweet)。

  • GPT-5.4 爆料叙事(The Information):多条推文在传播一则消息:GPT-5.4 将具备 约 100 万 Token 上下文窗口,并新增可“思考数小时”的 extreme reasoning mode,目标是提升长周期 agentic workflow 能力并降低复杂任务错误率(tweet, tweet, tweet)。另有猜测称 OpenAI 可能转向更高频(月更)的模型更新(tweet)。此外,有 arena 观察者声称“GPT-5.4 已进入 arena”,暗示发布窗口临近(tweet)。在 OpenAI 官方确认前,这些信息都应视为未证实

  • Claude 的领先点是“agent 行为”,不只是 coding:Nat Lambert 认为讨论焦点应从 Anthropic“全面押注代码”转向其在通用 agent 行为上的领先;潜台词是 coding 能力会商品化,但 agent 鲁棒性不会(tweet)。MathArena 的评测补充了一个观察:Claude Opus 4.6 总体表现强,但在视觉数学上偏弱,且评测成本高(声称约 8000 美元)(tweet)。

原文链接:https://www.latent.space/p/ainews-is-harness-engineering-real

相关文章

每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟
大型基因组模型 Evo 2 开源:在万亿级碱基上训练的 AI
资讯·3月4日
大型基因组模型 Evo 2 开源:在万亿级碱基上训练的 AI

研究团队发布了开源基因组大模型 Evo 2,使用覆盖细菌、古菌和真核生物的 8.8 万亿碱基数据进行训练。模型可在零样本条件下识别基因、调控序列、剪接位点等关键特征,并在突变效应评估上表现突出。尽管在生物序列设计方面仍处早期阶段,Evo 2 的全面开源为基因组注释与后续探索提供了重要基础。

10 分钟