S
SkillNav

【直播】Anthropic 蒸馏与模型“作弊”:SWE-Bench 已失效?

资讯2026-02-26T20:39:42+00:001 分钟阅读
【直播】Anthropic 蒸馏与模型“作弊”:SWE-Bench 已失效?

播客由 AI 工程师打造,也服务于 AI 工程师!

在 2025 年,已有超过 1000 万读者与听众来到 Latent Space,获取关于 Software 3.0 的新闻、论文与人物访谈。

我们持续关注 Foundation Models 如何在代码生成、多模态、AI Agents、GPU Infra 等几乎所有领域带来变革,并直接邀请推动技术前沿的创始人、建设者与思想者进行分享。我们力求既提供对当下热门议题(Current Thing)的权威解读,也带来你未来 3 个月就会用上的技术入门!我们发布来自 OpenAI、Anthropic、Gemini、Meta(Soumith Chintala)、Sierra(Bret Taylor)、tiny(George Hotz)、Databricks/MosaicML(Jon Frankle)、Modular(Chris Lattner)、Answer.ai(Jeremy Howard)等机构与人物的新闻与独家访谈。

完整节目笔记始终发布于 https://latent.space

原文链接:https://www.latent.space/p/paid-anthropic-distillation-and-how

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟