S
SkillNav

[AINews] Anthropic ARR冲上190亿美元,Qwen团队震荡,Gemini与GPT加速“快模型”竞赛

资讯2026-03-04T03:11:53+00:0012 分钟阅读
[AINews] Anthropic ARR冲上190亿美元,Qwen团队震荡,Gemini与GPT加速“快模型”竞赛

标题: [AINews] Anthropic ARR冲上190亿美元,Qwen团队离职,Gemini和GPT快速上调快模型

摘要: 平静的一天

内容:

这是 3/2/2026-3/3/2026 的 AI 新闻。我们为你检查了 12 个 subreddit、544 个 Twitter 账号 和 24 个 Discord(共 264 个频道、12765 条消息)。按 200wpm 估算,帮你节省阅读时间 1137 分钟。AINews 官网 可检索全部往期内容。提醒一下,AINews 现已并入 Latent Space 的一个栏目。你可以在这里订阅/退订不同邮件频率

今天最具分量的消息,可能是确认了 Anthropic ARR 已达到 190 亿美元。在经历了一个在新闻与公众关注度上都异常强势的月份后,这一数字已经非常接近 OpenAI 最近披露的 200 亿美元。回头看,2026 年底 300 亿美元目标似乎都没那么遥远了。若 Anthropic 最终“反超” OpenAI,那将是 ChatGPT 发布以来既有行业等级秩序的一次地震式重排。

[

](https://substackcdn.com/image/fetch/$s_!RPbg!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb8d40f52-7af5-4969-b941-896fbbd80306_1184x1702.png)

今天还有不少“小而重要”的动向——我们推荐你听听 Gemini 3.1 Flash-Lite demo 视频里的声音演示,相比 GPT 5.3 Instant 的发布信息更偏“对齐”表述,它对“速度感”的传达更直接有效。

[

](https://substackcdn.com/image/fetch/$s_!udIk!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5c5846dc-3d68-436a-8549-b9b4dd707c5d_1556x1004.png)

最后,Qwen 多位研究者的大规模离开(看起来与内部政治因素有关),对 Open Source 来说是一次巨大、甚至可能长期的打击。

[

](https://substackcdn.com/image/fetch/$s_!leWQ!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9b9024fe-bb8e-481d-898d-d61a0513b082_1264x856.png)

Gemini 3.1 Flash‑Lite 发布:“动态思考等级” + 激进价格/性能比

  • Gemini 3.1 Flash‑Lite(Preview) 已上线,作为 Google Gemini 3 系列中速度最快、成本效率最高的端点,重点面向高并发工作负载的 latencythroughput。DeepMind 在发布串中将其定位为“可规模化的智能”,并引入可调 thinking levels(可按任务复杂度调节计算量)@GoogleDeepMind;API 通过 AI Studio / Vertex 推出 @Google。Jeff Dean 强调其 $0.25/M input$1.50/M output、在 LMArena 达到 1432 Elo、在 GPQA Diamond 取得 86.9%,并称其 首 Token 时间较 Gemini 2.5 Flash 快 2.5× @JeffDean;Noam Shazeer 同样强调“thinking levels”是可让产品在“最大智能、最小延迟”之间调节的旋钮 @NoamShazeer;Sundar Pichai 也放大了同样的速度/成本叙事 @sundarpichai

  • 第三方基准/定位:Artificial Analysis 报告称 Flash‑Lite 保留 1M context 窗口,测得 >360 output tokens/s 和约 5.1s 平均回答延迟,其“Intelligence Index”较 2.5 Flash‑Lite 提升,但 定价有所上调(综合成本明显上升)@ArtificialAnlys。Arena 指出 Flash‑Lite Preview 在 Text Arena 排名 #36(1432),在 Code Arena 约并列 #35,被视为成本-性能前沿上的有力点位 @arena。社区反复出现的反馈是“Flash‑Lite……Google 这命名也太好笑了”,一方面因为命名,一方面因为发布节奏太快 @JasonBotterill;还有“Google 发模型速度比我测试速度还快” @matvelloso

  • 多模态角度:Google 员工主推“别再手写 parser,直接用 Flash‑Lite”来处理 text+images+video+audio+PDF 输入 @koraykv,强化了 Flash‑Lite 作为生产工作流 plumbing model 的定位。

OpenAI:GPT‑5.3 Instant 全量推送 + “不再说教” + 预热 GPT‑5.4

  • GPT‑5.3 Instant 已向所有 ChatGPT 用户推送,明确回应了用户对 5.2“过于谨慎”“免责声明太多”的批评。OpenAI 称其对话自然度提升、减少不必要拒答/防御性说明,并改进了与搜索结合的回答质量 @OpenAI, @nickaturley。OpenAI 还称幻觉率下降:据内部贡献者披露,接入搜索提升 26.8%不接入搜索提升 19.7% @aidan_mclau,并被员工转述确认 @christinahkim

  • API/Arena 曝光:据社区反馈,API 中已出现 “GPT‑5.3‑chat‑latest” @scaling01,并可在 Text Arena 进行并排评测 @arena

  • GPT‑5.4 预热:OpenAI 发布高互动帖“sooner than you Think” @OpenAI,也引发了关于版本节奏的困惑(与“5.3 Thinking 和 Pro 很快跟进”的说法如何衔接)@kimmonismus。还有多条推文猜测,5.4 的话题也被用于在 DoD/NSA 合同争议期间进行 news-cycle deflection @kimmonismus

阿里 Qwen 震荡:核心负责人离开,“Qwen 离不开其团队”,开源走向不确定

  • 关键离职:数据集中最显著的主线之一是 Qwen 技术领导层和核心贡献者离开。Justin Lin 的“stepping down”帖引发广泛反应 @JustinLin610,随后出现高信号确认/致意帖,且有更多离开信息,包括另一位负责人“bye qwen, me too” @huybery 与另一条告别 @kxli_2000。外部观察者将其描述为阿里云“请走”Qwen 技术负责人 @YouJiacheng

  • 技术上为何重要:不少工程师将 Qwen 视为开源模型生态的 关键基础设施,尤其在 <10B 与“Pareto frontier”模型,以及 VLM/OCR 衍生方向上。如果开源权重发布节奏放缓或许可证立场变化,这将构成真实的生态风险 @natolambert, @teortaxesTex, @awnihannun。同时,社区迅速出现对 Qwen OSS 路线是否变化的猜测——“受欢迎的开源模型还不够” @code_star

  • 组织层面的诊断:一种反复出现的解释是,纳入更高层级阿里体系(向 CEO 汇报)的“统一化”带来了围绕影响力/可见度的政治压力 @Xinyu2ML;更广泛评论则指向大厂层级结构会惩罚那些搭建外部信任“桥梁”的人 @hxiao

  • 尽管动荡,发版仍在继续:Qwen 3.5 LoRA 微调指南和低 VRAM 训练方案迅速扩散(尤其是 Unsloth)@UnslothAI;支持 vLLM/SGLang 的 GPTQ Int4 权重也被推广 @Alibaba_Qwen。社区也在持续做 Qwen3.5 教程与复现 @rasbt。当前张力在于:发布速度依然很快,但 领导层在流失

长上下文 + 训练效率:让“不可实现”的上下文窗口变得可用

  • 长上下文训练注意力内存减少 87%:Together 一篇论文强调将 Context ParallelismSequence Parallel 风格 head chunking 结合,宣称可在 8×H100(单节点) 上训练 5M context window 的 8B 模型,并将注意力内存占用最多降低 87% @rronak_。推文也指出一个现实问题:由于内存成本,很多长上下文前沿模型的 RL 后训练实际上只在完整上下文的一部分上进行。

  • FlashOptim(Databricks):开源优化器实现(AdamW/SGD/Lion)在保持更新等价性的同时降低内存——推文串宣布可 pip install flashoptim @davisblalock。MosaicAI 总结称训练内存可降低 >50%,例如 AdamW 训练开销可由约 16 bytes/param 降至 7 bytes(配合 gradient release 可到 5),并将某 8B 微调案例峰值从 175 GiB → 113 GiB @DbrxMosaicAI

  • 面向 RL 的异构基础设施:SkyPilot 主张 RL 后训练应把负载拆到 高性能 GPU(trainer)低成本 GPU(rollouts)高内存 CPU(replay buffers) 上;Job Groups 提供单 YAML 的编排模型,统一生命周期与服务发现 @skypilot_org

  • Kernel/toolchain 踩坑:一份 CuTeDSL + torch.compile 回归报告指出,为兼容 compile 而改为 custom ops 的封装 kernel(含 RMSNorm“Quack” kernel)出现约 2.5× 降速,反映了 kernel 级速度与图编译要求之间的实际摩擦 @maharshii

Agent 工程现实检验:基准与“真实工作”错位、共识失灵、工具链迁移(MCP、沙箱、可观测性)

  • 基准与劳动经济结构不匹配:有新数据库尝试把 Agent benchmark 映射到真实工作分布,指出现有评测过度偏向数学/编程,而现实中的劳动与资本并非如此分布 @ZhiruoW。该观点被转发为“AI 面向真实工作的基准评测核心问题” @emollick。Arena 推出的 Document Arena 可视为直接回应:提供真实 PDF 推理的并排评测;按 Arena 口径,Claude Opus 4.6 领先 @arena

  • 多 Agent 协同仍然脆弱:Byzantine 共识游戏显示,即便在良性条件下,LLM Agent 的一致性也并不可靠;失败往往来自 停滞/超时 多于恶意篡改,且随群体规模增大而恶化 @omarsar0。另一项关于 Theory of Mind + BDI + 符号验证的工作也显示,认知型“ToM 模块”并不会自动带来收益,效果强依赖基座模型能力 @omarsar0

  • MCP“死了?” vs MCP 扩张中:DAIR 的 Omar 明确抛出“MCP is dead?”问题 @omarsar0;但同一数据集中 MCP 采用却在增长:Notion 为 Meeting Notes 提供 MCP/API 支持(可通过 Claude Code 一行安装)@zachtratar;Cursor 发布 MCP Apps,让 Agent 在聊天中渲染交互式 UI @cursor_ai

  • “取消 Code Review”争论:swyx 将去除人工 code review 视为 Agent 工程与 SDLC 反转的“最终 Boss” @swyx。反方观点来自 thdxr:团队若借 LLM 产出“如此大量代码”,可能是用法本身出了问题;代码体量膨胀会形成自我削弱的代码库,LLM 也难以处理其复杂度 @thdxr

  • 沙箱化“computer use”平台:Perplexity 的“Computer”热度很高:Srinivas 征集功能需求 @AravSrinivas;Perplexity 将其产品定位为可编排多模型并直接嵌入应用,配套托管安全沙箱(无需管理 API key)@AravSrinivas, @AskPerplexity。Cursor 的云 Agent 也采用隔离 VM 运行,并输出可直接合并的 PR 与产物 @dl_weekly

人才、治理与信任:Anthropic vs DoD、OpenAI 合同审视与高层流动

  • OpenAI 后训练 VP Max Schwarzer 转投 Anthropic:一项重磅人事变动——Schwarzer 宣布离开 OpenAI(其曾负责后训练并参与 GPT‑5/5.1/5.2/5.3-Codex 交付),加入 Anthropic 回归 IC 级 RL 研究 @max_a_schwarzer。这进一步强化了“Anthropic 大胜”的叙事 @kimmonismus,也放大了“传奇人物出走”的焦虑 @yacinelearning

  • Anthropic 与 Pentagon/Palantir 的紧张关系:有报道声称 DoD 曾威胁要将 Anthropic 标记为

[... 内容已截断 ...]

原文链接:https://www.latent.space/p/ainews-anthropic-19b-arr-qwen-team

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟