METR 的 Joel Becker 谈指数型时间跨度评测、威胁模型与 AI 生产力边界
AIE Europe CFP 与 AIE World’s Fair 的 CAIS 同行评审论文提交 今天截止——不要拖延!最后一次通知。
我们很高兴欢迎 METR 首次做客 LS Pod,也希望这只是一个开始:
METR 目前“保管”着 AI 领域最臭名昭著的一张图:
[

但每一位 Latent Space 读者都应足够成熟,知道细节决定意义,也知道在 AI 社交媒体里,热炒与夸张总是并行不悖。那张图获得了数百万次曝光,很多传播者并不理解、也不关心其中的细微差别、免责声明和误差条;而真正绘制该图的人发布的更正内容,却只有 6.9 万浏览:
[

无论是设计 benchmark(正如我们在 与 OpenAI 聊 SWE-Bench Verified 的播客中发现的),还是从 benchmark 结果向外推断,里面都有大量细节,尤其是 涉及指数曲线与 S 型曲线时。METR 的 Long Horizons 工作本身也存在已知偏差,作者已经负责任地披露了这些问题;但在“末日图表”式传播的追逐中,这些限定往往被严重低估。
[

Shashwat Goel@ShashwatGoel7
新博文:如何“玩坏” METR 图表🚨 2025 年,一张图改变了 AGI 时间线、投资、研究优先级、模型质量评估等诸多事项。但如果你再仔细看,会发现今年 AI 话语体系竟然只由 14 个 prompts 塑造。因为 1–4 小时区间里就这么点数据。

1:24 PM · Dec 20, 2025 · 206K Views
39 Replies · 70 Reposts · 771 Likes
](https://x.com/shashwatgoel7/status/2002369517499105443?s=46)
如果你想看这期播客更短、更适合传播的 TED talk 版本,在 AIE CODE 我们很幸运两次邀请了 Joel:一次是 舞台演讲,另一次是更长形式、带问答的 小型工作坊。
我们也确保覆盖了 METR 较少被讨论的研究:不仅有 Threat Evaluation,还有 Developer Productivity。顺带一提,播客老朋友、如今 Zyphra 创始人 Quentin Anthony 是唯一一个有产出的参与者!
最后,如果你是那种会把 show notes 读到最后的人,那你一定值得看看 Joel 在 Love Band Karaoke 大秀吉他的照片——我们在结尾也提到了这段:
[

00:00 METR 是什么
00:39 与 Joel 的播客开场
01:39 ME vs TR
03:33 Time Horizon 的起源故事
04:56 任务选择与偏差
09:13 对 Time Horizon 的误解
11:37 Opus 4.5 与趋势线
14:27 生产力研究与“爆发式增长”
29:50 算力拖慢进展
30:47 算法需要算力
32:45 行业支出与数据
34:57 集群与交付时间线
36:44 模型预测市场
38:10 Manifold Alpha 故事
43:04 超越 benchmark 的评测
51:39 METR 路线图与告别

