S
SkillNav

[AINews] 2025 年 12 月到底发生了什么?

深度2026-02-26T00:08:54+00:009 分钟阅读
[AINews] 2025 年 12 月到底发生了什么?

标题:[AINews] 2025 年 12 月到底发生了什么?

摘要:在一个相对平静的日子里,我们终于可以把那种越来越强、也越来越让人不安的感受说出来:编程已经被永久改变——而且远不只是“正常炒作”那么简单。

正文: 想要报道 AI、又不想被 hype 带着跑,最大的问题在于:有时候,确实每隔几周就会出现真的值得大吹特吹的东西。现在很难判断真假,因为许多 influencer 的生计模式就是告诉你:{刚发布的模型}就是 AGI,而 {他们之前力推的模型} 已经一文不值。最直接的办法,还是尽量形成自己的判断……并依赖那些可信、不会为了注意力游戏而“卖身”的声音。

后者正在变多(当然噪音也同样在增加)。

你可以看到 Andrej 在实时梳理自己的感受:从最初的 vibe coding tweet,到 agentic engineering。而今天,他也加入了越来越多人的合唱:2025 年 12 月(Opus 4.5Gemini 3、以及 OpenAI 十周年发布的 GPT 5.2 在短时间内密集上线)是一个重大转折点。

我们原本也正计划围绕 Greg Brockman 的类似观察写一篇短文:

[

](https://substackcdn.com/image/fetch/$s_!6p2j!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb7f2f20b-bce2-4b68-b061-758ce1dc5e16_1534x1634.png)

以及 Boris 的观察:Claude Code 已经开始“自托管”自己:

[

X avatar for @bcherny

Boris Cherny@bcherny

@YashGouravKar1 Correct. In the last thirty days, 100% of my contributions to Claude Code were written by Claude Code

12:48 PM · Dec 27, 2025 · 1.38M Views

126 Replies · 319 Reposts · 3.07K Likes

](https://x.com/bcherny/status/2004897269674639461?s=20)

还有 SemiAnalysis 的观察:Claude Code 目前大约写下了 GitHub 5% 的 commits:

[

Claude Code for Finance + The Global Memory Shortage: Doug O'Laughlin, SemiAnalysis

](https://www.latent.space/p/valuemule)

我们为此做了一个 microsite:

https://wtfhappened2025.com/

接下来我们会把它当作一个持续更新的资源页,随着更多观察与图表拐点出现而不断补充。现在的数据当然仍然稀疏,也缺少时间序列图,因为当你身处其中时,很难去估计一条 sigmoid 曲线。但我们会尽力像当年的 WTF 1971 那样整理关键 datapoints。我们常开玩笑说 AINews 是“唯一一个劝你别读它的 newsletter”,因为“nothing days”太多;但这件事越来越不像玩笑了。

[

](https://substackcdn.com/image/fetch/$s_!r5oF!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb78fc771-ed91-4c32-bdd7-600533af4429_3050x2198.png)

2026/2/24-2026/2/25 的 AI News。我们为你检查了 12 个 subreddit、544 个 Twitter 和 24 个 Discord(262 个频道、10751 条消息)。按 200wpm 估算,替你节省阅读时间 1086 分钟。AINews 网站可检索所有往期。提醒一下,AINews 现已成为 Latent Space 的一个栏目。你也可以按需订阅/退订不同邮件频率

Perplexity “Computer”:以编排为先的 Agent 产品(多模型、工具+环境、按使用量计费)

  • Perplexity Computer 发布:Perplexity 推出 Computer,定位为一个端到端系统,可通过在同一界面编排 files、tools、memory、models 来完成“research、design、code、deploy、manage”项目(launch tweet, Arav Srinivas)。核心产品信号包括:

    • 访问与定价:先向 Max 订阅用户开放网页端,随后扩展至 Pro/Enterprise;采用usage-based pricing,支持子 Agent 模型选择、消费上限,并给 Max 包含积分(每月 10k)及限时奖励积分(pricing details, availability, Arav on rollout)。

    • 架构侧重点:多条推文都强调,所谓“突破”在于并行、异步的子 Agent,由协调模型把任务分配给专业模型(research vs coding vs media),而非单一的巨型 Agent 循环(Lior’s breakdown, Denis Yarats)。

    • “Everything is computer”叙事:Perplexity 团队成员放大了这一叙事——Computer 作为平台由小团队构建,并大量依赖 coding agents 与自动化 eval/debug 循环(Arav, Denis)。

  • 为什么工程师需要关心:Computer 具体推动了 systems-level agent UX:多模型路由、隔离/沙箱、持久记忆与成本控制——也就是把“agentic work”视作分布式工作流,而不是单次聊天会话(Arav, Computer site)。

Coding agents:“12 月开始真的能用了” + 新模型/工具密集发布(GPT‑5.3‑Codex、Claude Code 生态、Copilot CLI GA)

  • Karpathy 的“相变”判断:Andrej Karpathy 认为,从 12 月起 coding agents 跨过了一个质变阈值——从脆弱 demo 变成可以在长周期任务中保持连贯与韧性的执行体。他给了一个详细案例:几乎无需干预地委派一整套本地部署流程(SSH keys → vLLM → 模型下载/bench → server endpoint → UI → systemd → 报告)(Karpathy)。这也呼应了更广泛的“software is changing”情绪(Cursor, snowmaker)。

  • OpenAI GPT‑5.3‑Codex 发布 + 早期评测讨论

    • OpenAI 在 API 中发布 GPT‑5.3‑Codexsnsf),Cline 宣布支持并声称有提升:较 5.2 快约 25%、每任务 Token 更少、SWE-Bench Pro 表现强(Cline)。

    • 社区 benchmark 反馈尖锐且噪音很大:例如“IBench 86%”引发惊讶(tweet)以及“首批 benchmark 即将出炉”(kimmonismus)。在方法学清晰前,这些信号更适合视为方向性参考。

  • Claude Code:产品成熟度 + 可观测性 + 集成扩展

    • “一周年”叙事与回顾把 Claude Code 定位为基础型 coding agent 产品,同时也提出context length 扩展触及内存约束的担忧(swyx)。

    • 生态层面的实用进展:Claude Code 集成 Slack plugincatwu);通过 LangSmith tracing 排查“nerfing/路由”问题(hwchase17, observability complaint)。

  • GitHub Copilot CLI GA + “/research”

    • Copilot CLI 达到 GAEvan Boyle),并新增 /research:结合 GitHub code search 与基于 MCP 的动态抓取,对 repo 进行深度研究,且可导出 gist 报告共享(feature)。

    • 小的 UX 更新:终端中的 Copilot CLI 可实时更新标题(tweet)。

开放模型与本地推理:Qwen3.5 “Medium” 浪潮(MoE + 长上下文 + FP8/量化),以及本地 Agent 的拐点

  • Qwen3.5 Medium 系列“分发闪电战”:阿里在发布当日推动 vLLM、GGUF、LM Studio、Ollama、Jan 多工具链支持,凸显当下主流开源模型发布后的部署栈落地速度(vLLM thanks, GGUF, LM Studio, Ollama, Jan)。

  • Qwen 给出的关键技术主张(按其发布内容转述,本文未独立验证):

    • 量化鲁棒性:在 4-bit 权重 + KV-cache quantization 下,准确率“近乎无损”。

    • 长上下文Qwen3.5‑27B 支持 800K+35B‑A3B 在 32GB VRAM 消费级 GPU 上可达 1M+ context122B‑A10B 在 80GB GPU 上可达 1M+

    • 开放 base 模型:Qwen 开源 Qwen3.5‑35B‑A3B‑Base 以支持研究(Alibaba_Qwen)。

    • 开放 FP8 权重,并提供原生 vLLM/SGLang 支持(FP8 announcement)。

  • 本地 Agent 的“前后对比”:有实践者称 Qwen3.5‑35B‑A3B 明显提升了本地 Agent 循环的可靠性(tool calling、稳定性),且每 Token 仅激活 ~3B params——这等于明确提出:在许多工作流里,本地方案已可与 Claude Code/Codex 并行可用(victormustar)。

  • 评测讨论警示:benchmaxxing 与 MoE/稠密模型混淆

    • 多个讨论提醒不要过度解读排行榜(“please stop falling for benchmaxxing”)(scaling01);也有人指出 Qwen 不同规格在部分 benchmark 上异常接近,可能意味着工具链效应或 benchmark 伪影(eliebakouch, teortaxesTex on HLE/MoE interpretation)。

    • Arena 已将 Qwen3.5 Medium 加入 Text/Vision/Code Arena 做正面对比(Arena)。

Agents、可靠性与“为 Agent 构建”:最小基准、工具接口优化与失败模式

  • 能力提升快于可靠性提升:一条偏可靠性研究的路线认为,尽管模型能力进展迅猛,可靠性增益却相对有限;应将可靠性拆解为多个维度,而不是压缩为单一“成功率”数字(IEthics, Justin Bullock quote)。

  • Agent 失败常常是 可靠性问题,不是能力问题:一篇“agent failure”论文的摘要称,Agent 常因一连串轻微偏航的工具调用而失败:一次错误会提高下一次错误概率,尤其在长周期任务中更明显(omarsar0)。

  • “安全且有用”最小 benchmark 思路:相比不断加难任务,有提议认为应测量模型能否稳定执行极其明确且琐碎的安全行为(如“仅在被要求时发送邮件”),并在无关/干扰上下文中也保持一致;其结论是 frontier 模型仍会漏判(jonasgeiping)。

  • 把工具描述作为优化目标(Trace‑Free+):Intuit AI Research 指出,Agent 成败高度依赖工具接口文本,并提出一种课程式方法,让模型把工具描述重写为更适于 Agent 使用的形式,且推理时无需 traces;据称在 StableToolBench/RestBench 与 100+ 工具场景下有收益(omarsar0)。

  • GUI/web agents:规划式 vs 反应式:ActionEngine 将 GUI Agent 视为图遍历:离线探索生成状态机,在线阶段用约 1 次 LLM 调用生成完整程序;据称相较逐步视觉循环,在成功率/成本/延迟上显著更优(dair_ai)。

算力、内存与推理速度前沿:芯片内存层级、扩散式 LLM 与扩展基础设施

  • Karpathy 谈“tokens 海啸”与内存编排:一条高热讨论把核心约束归结为两类内存池:快但小的片上 SRAM,与大但慢的片外 DRAM。其观点是,最大难题在于如何为 LLM 工作流(prefill/decode/training)编排 memory+compute,以优化吞吐/时延/成本,尤其是在长上下文 + 高频 Agent 循环下的 decode 阶段——这对“HBM-first”(类似 NVIDIA)和“SRAM-first”(类似 Cerebras)路线都很难(Karpathy)。

  • 扩散式 LLM 作为提速替代路径

    • Andrew Ng 强调了 Inception Labs 扩散式 LLM 在推理速度上的亮眼表现(AndrewYNg)。

    • 另有讨论称扩散方法可达到 ~1000 tok/s,并通过架构而非芯片改写速度竞争格局(需谨慎解读;营销常快于可复现评测)([k

[... content truncated ...]

原文链接:https://www.latent.space/p/wtf2025

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟