[AINews] 2025 年 12 月到底发生了什么?
![[AINews] 2025 年 12 月到底发生了什么?](https://substackcdn.com/image/fetch/$s_!r5oF!,w_1200,h_675,c_fill,f_jpg,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb78fc771-ed91-4c32-bdd7-600533af4429_3050x2198.png)
标题:[AINews] 2025 年 12 月到底发生了什么?
摘要:在一个相对平静的日子里,我们终于可以把那种越来越强、也越来越让人不安的感受说出来:编程已经被永久改变——而且远不只是“正常炒作”那么简单。
正文: 想要报道 AI、又不想被 hype 带着跑,最大的问题在于:有时候,确实每隔几周就会出现真的值得大吹特吹的东西。现在很难判断真假,因为许多 influencer 的生计模式就是告诉你:{刚发布的模型}就是 AGI,而 {他们之前力推的模型} 已经一文不值。最直接的办法,还是尽量形成自己的判断……并依赖那些可信、不会为了注意力游戏而“卖身”的声音。
后者正在变多(当然噪音也同样在增加)。
你可以看到 Andrej 在实时梳理自己的感受:从最初的 vibe coding tweet,到 agentic engineering。而今天,他也加入了越来越多人的合唱:2025 年 12 月(Opus 4.5、Gemini 3、以及 OpenAI 十周年发布的 GPT 5.2 在短时间内密集上线)是一个重大转折点。
我们原本也正计划围绕 Greg Brockman 的类似观察写一篇短文:
[

以及 Boris 的观察:Claude Code 已经开始“自托管”自己:
[

Boris Cherny@bcherny
@YashGouravKar1 Correct. In the last thirty days, 100% of my contributions to Claude Code were written by Claude Code
12:48 PM · Dec 27, 2025 · 1.38M Views
126 Replies · 319 Reposts · 3.07K Likes
](https://x.com/bcherny/status/2004897269674639461?s=20)
还有 SemiAnalysis 的观察:Claude Code 目前大约写下了 GitHub 5% 的 commits:
[

](https://www.latent.space/p/valuemule)
我们为此做了一个 microsite:
接下来我们会把它当作一个持续更新的资源页,随着更多观察与图表拐点出现而不断补充。现在的数据当然仍然稀疏,也缺少时间序列图,因为当你身处其中时,很难去估计一条 sigmoid 曲线。但我们会尽力像当年的 WTF 1971 那样整理关键 datapoints。我们常开玩笑说 AINews 是“唯一一个劝你别读它的 newsletter”,因为“nothing days”太多;但这件事越来越不像玩笑了。
[

2026/2/24-2026/2/25 的 AI News。我们为你检查了 12 个 subreddit、544 个 Twitter 和 24 个 Discord(262 个频道、10751 条消息)。按 200wpm 估算,替你节省阅读时间 1086 分钟。AINews 网站可检索所有往期。提醒一下,AINews 现已成为 Latent Space 的一个栏目。你也可以按需订阅/退订不同邮件频率!
Perplexity “Computer”:以编排为先的 Agent 产品(多模型、工具+环境、按使用量计费)
-
Perplexity Computer 发布:Perplexity 推出 Computer,定位为一个端到端系统,可通过在同一界面编排 files、tools、memory、models 来完成“research、design、code、deploy、manage”项目(launch tweet, Arav Srinivas)。核心产品信号包括:
-
访问与定价:先向 Max 订阅用户开放网页端,随后扩展至 Pro/Enterprise;采用usage-based pricing,支持子 Agent 模型选择、消费上限,并给 Max 包含积分(每月 10k)及限时奖励积分(pricing details, availability, Arav on rollout)。
-
架构侧重点:多条推文都强调,所谓“突破”在于并行、异步的子 Agent,由协调模型把任务分配给专业模型(research vs coding vs media),而非单一的巨型 Agent 循环(Lior’s breakdown, Denis Yarats)。
-
“Everything is computer”叙事:Perplexity 团队成员放大了这一叙事——Computer 作为平台由小团队构建,并大量依赖 coding agents 与自动化 eval/debug 循环(Arav, Denis)。
-
-
为什么工程师需要关心:Computer 具体推动了 systems-level agent UX:多模型路由、隔离/沙箱、持久记忆与成本控制——也就是把“agentic work”视作分布式工作流,而不是单次聊天会话(Arav, Computer site)。
Coding agents:“12 月开始真的能用了” + 新模型/工具密集发布(GPT‑5.3‑Codex、Claude Code 生态、Copilot CLI GA)
-
Karpathy 的“相变”判断:Andrej Karpathy 认为,从 12 月起 coding agents 跨过了一个质变阈值——从脆弱 demo 变成可以在长周期任务中保持连贯与韧性的执行体。他给了一个详细案例:几乎无需干预地委派一整套本地部署流程(SSH keys → vLLM → 模型下载/bench → server endpoint → UI → systemd → 报告)(Karpathy)。这也呼应了更广泛的“software is changing”情绪(Cursor, snowmaker)。
-
OpenAI GPT‑5.3‑Codex 发布 + 早期评测讨论:
-
OpenAI 在 API 中发布 GPT‑5.3‑Codex(snsf),Cline 宣布支持并声称有提升:较 5.2 快约 25%、每任务 Token 更少、SWE-Bench Pro 表现强(Cline)。
-
社区 benchmark 反馈尖锐且噪音很大:例如“IBench 86%”引发惊讶(tweet)以及“首批 benchmark 即将出炉”(kimmonismus)。在方法学清晰前,这些信号更适合视为方向性参考。
-
-
Claude Code:产品成熟度 + 可观测性 + 集成扩展:
-
“一周年”叙事与回顾把 Claude Code 定位为基础型 coding agent 产品,同时也提出context length 扩展触及内存约束的担忧(swyx)。
-
生态层面的实用进展:Claude Code 集成 Slack plugin(catwu);通过 LangSmith tracing 排查“nerfing/路由”问题(hwchase17, observability complaint)。
-
-
GitHub Copilot CLI GA + “/research”:
-
Copilot CLI 达到 GA(Evan Boyle),并新增
/research:结合 GitHub code search 与基于 MCP 的动态抓取,对 repo 进行深度研究,且可导出 gist 报告共享(feature)。 -
小的 UX 更新:终端中的 Copilot CLI 可实时更新标题(tweet)。
-
开放模型与本地推理:Qwen3.5 “Medium” 浪潮(MoE + 长上下文 + FP8/量化),以及本地 Agent 的拐点
-
Qwen3.5 Medium 系列“分发闪电战”:阿里在发布当日推动 vLLM、GGUF、LM Studio、Ollama、Jan 多工具链支持,凸显当下主流开源模型发布后的部署栈落地速度(vLLM thanks, GGUF, LM Studio, Ollama, Jan)。
-
Qwen 给出的关键技术主张(按其发布内容转述,本文未独立验证):
-
量化鲁棒性:在 4-bit 权重 + KV-cache quantization 下,准确率“近乎无损”。
-
长上下文:Qwen3.5‑27B 支持 800K+,35B‑A3B 在 32GB VRAM 消费级 GPU 上可达 1M+ context,122B‑A10B 在 80GB GPU 上可达 1M+。
-
开放 base 模型:Qwen 开源 Qwen3.5‑35B‑A3B‑Base 以支持研究(Alibaba_Qwen)。
-
开放 FP8 权重,并提供原生 vLLM/SGLang 支持(FP8 announcement)。
-
-
本地 Agent 的“前后对比”:有实践者称 Qwen3.5‑35B‑A3B 明显提升了本地 Agent 循环的可靠性(tool calling、稳定性),且每 Token 仅激活 ~3B params——这等于明确提出:在许多工作流里,本地方案已可与 Claude Code/Codex 并行可用(victormustar)。
-
评测讨论警示:benchmaxxing 与 MoE/稠密模型混淆:
-
多个讨论提醒不要过度解读排行榜(“please stop falling for benchmaxxing”)(scaling01);也有人指出 Qwen 不同规格在部分 benchmark 上异常接近,可能意味着工具链效应或 benchmark 伪影(eliebakouch, teortaxesTex on HLE/MoE interpretation)。
-
Arena 已将 Qwen3.5 Medium 加入 Text/Vision/Code Arena 做正面对比(Arena)。
-
Agents、可靠性与“为 Agent 构建”:最小基准、工具接口优化与失败模式
-
能力提升快于可靠性提升:一条偏可靠性研究的路线认为,尽管模型能力进展迅猛,可靠性增益却相对有限;应将可靠性拆解为多个维度,而不是压缩为单一“成功率”数字(IEthics, Justin Bullock quote)。
-
Agent 失败常常是 可靠性问题,不是能力问题:一篇“agent failure”论文的摘要称,Agent 常因一连串轻微偏航的工具调用而失败:一次错误会提高下一次错误概率,尤其在长周期任务中更明显(omarsar0)。
-
“安全且有用”最小 benchmark 思路:相比不断加难任务,有提议认为应测量模型能否稳定执行极其明确且琐碎的安全行为(如“仅在被要求时发送邮件”),并在无关/干扰上下文中也保持一致;其结论是 frontier 模型仍会漏判(jonasgeiping)。
-
把工具描述作为优化目标(Trace‑Free+):Intuit AI Research 指出,Agent 成败高度依赖工具接口文本,并提出一种课程式方法,让模型把工具描述重写为更适于 Agent 使用的形式,且推理时无需 traces;据称在 StableToolBench/RestBench 与 100+ 工具场景下有收益(omarsar0)。
-
GUI/web agents:规划式 vs 反应式:ActionEngine 将 GUI Agent 视为图遍历:离线探索生成状态机,在线阶段用约 1 次 LLM 调用生成完整程序;据称相较逐步视觉循环,在成功率/成本/延迟上显著更优(dair_ai)。
算力、内存与推理速度前沿:芯片内存层级、扩散式 LLM 与扩展基础设施
-
Karpathy 谈“tokens 海啸”与内存编排:一条高热讨论把核心约束归结为两类内存池:快但小的片上 SRAM,与大但慢的片外 DRAM。其观点是,最大难题在于如何为 LLM 工作流(prefill/decode/training)编排 memory+compute,以优化吞吐/时延/成本,尤其是在长上下文 + 高频 Agent 循环下的 decode 阶段——这对“HBM-first”(类似 NVIDIA)和“SRAM-first”(类似 Cerebras)路线都很难(Karpathy)。
-
扩散式 LLM 作为提速替代路径:
-
Andrew Ng 强调了 Inception Labs 扩散式 LLM 在推理速度上的亮眼表现(AndrewYNg)。
-
另有讨论称扩散方法可达到 ~1000 tok/s,并通过架构而非芯片改写速度竞争格局(需谨慎解读;营销常快于可复现评测)([k
-
[... content truncated ...]

