S
SkillNav

METR 的 Joel Becker 谈指数型时间跨度评测、威胁模型与 AI 生产力边界

深度2026-02-27T19:17:52+00:006 分钟阅读
METR 的 Joel Becker 谈指数型时间跨度评测、威胁模型与 AI 生产力边界

AIE Europe CFP 与 AIE World’s Fair 的 CAIS 同行评审论文提交 今天截止——不要拖延!最后一次通知。

我们很高兴欢迎 METR 首次做客 LS Pod,也希望这只是一个开始:

METR 目前“保管”着 AI 领域最臭名昭著的一张图

[

](https://substackcdn.com/image/fetch/$s_!zG2I!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F523f6f80-7daf-4e69-a8bd-be64c713ac17_908x1284.png)

但每一位 Latent Space 读者都应足够成熟,知道细节决定意义,也知道在 AI 社交媒体里,热炒与夸张总是并行不悖。那张图获得了数百万次曝光,很多传播者并不理解、也不关心其中的细微差别、免责声明和误差条;而真正绘制该图的人发布的更正内容,却只有 6.9 万浏览:

[

](https://substackcdn.com/image/fetch/$s_!qiyT!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F70ec218d-6d68-416e-b282-876a09f70b05_1572x1702.png)

无论是设计 benchmark(正如我们在 与 OpenAI 聊 SWE-Bench Verified 的播客中发现的),还是从 benchmark 结果向外推断,里面都有大量细节,尤其是 涉及指数曲线与 S 型曲线时。METR 的 Long Horizons 工作本身也存在已知偏差,作者已经负责任地披露了这些问题;但在“末日图表”式传播的追逐中,这些限定往往被严重低估。

[

X avatar for @ShashwatGoel7

Shashwat Goel@ShashwatGoel7

新博文:如何“玩坏” METR 图表🚨 2025 年,一张图改变了 AGI 时间线、投资、研究优先级、模型质量评估等诸多事项。但如果你再仔细看,会发现今年 AI 话语体系竟然只由 14 个 prompts 塑造。因为 1–4 小时区间里就这么点数据。

1:24 PM · Dec 20, 2025 · 206K Views

39 Replies · 70 Reposts · 771 Likes

](https://x.com/shashwatgoel7/status/2002369517499105443?s=46)

如果你想看这期播客更短、更适合传播的 TED talk 版本,在 AIE CODE 我们很幸运两次邀请了 Joel:一次是 舞台演讲,另一次是更长形式、带问答的 小型工作坊

我们也确保覆盖了 METR 较少被讨论的研究:不仅有 Threat Evaluation,还有 Developer Productivity。顺带一提,播客老朋友、如今 Zyphra 创始人 Quentin Anthony 是唯一一个有产出的参与者

最后,如果你是那种会把 show notes 读到最后的人,那你一定值得看看 Joel 在 Love Band Karaoke 大秀吉他的照片——我们在结尾也提到了这段:

[

](https://substackcdn.com/image/fetch/$s_!9DTL!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F261a048d-97ff-4b93-8b13-985257f8faa5_1024x768.jpeg)

00:00 METR 是什么
00:39 与 Joel 的播客开场
01:39 ME vs TR
03:33 Time Horizon 的起源故事
04:56 任务选择与偏差
09:13 对 Time Horizon 的误解
11:37 Opus 4.5 与趋势线
14:27 生产力研究与“爆发式增长”
29:50 算力拖慢进展
30:47 算法需要算力
32:45 行业支出与数据
34:57 集群与交付时间线
36:44 模型预测市场
38:10 Manifold Alpha 故事
43:04 超越 benchmark 的评测
51:39 METR 路线图与告别

原文链接:https://www.latent.space/p/metr

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟