S
SkillNav

[AINews] Gemini 3.1 Pro:ARC-AGI 2 成绩达 3.0 的两倍

资讯2026-02-20T07:15:49+00:004 分钟阅读
[AINews] Gemini 3.1 Pro:ARC-AGI 2 成绩达 3.0 的两倍

Title: [AINews] Gemini 3.1 Pro:ARC-AGI 2 成绩达 3.0 的两倍

Summary: 轮到 Google 出牌了。

Content:

2026/2/18-2026/2/19 的 AI News。我们为你检查了 12 个 subreddit、544 个 Twitter 账号 和 24 个 Discord(262 个频道、14980 条消息)。按 200wpm 估算,帮你节省阅读时间 1467 分钟。AINews 官网 可搜索全部往期内容。提醒一下,AINews 现已并入 Latent Space 的一个栏目。你也可以在邮件频率上选择订阅/退订

在前沿模型几乎每周都进行“轮转式”小版本更新的当下,想写出真正有新意的点评已经越来越难。不过 Gemini 3.1 Pro 看起来确实是一次足够像样的跃进:不仅帮助 Google 追上其他前沿模型,某些场景下甚至有反超意味。(这大概也是 3.1 “必须”尽快发布的原因——毕竟在 5.3 和 4.6 之后,Google 的节奏已经明显落后1。)

[

Image

](https://substackcdn.com/image/fetch/$s_!yx8y!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8564929f-b251-49ac-bc93-3564e36f2cd2_2160x2700.png)

它在一些 svg 设计任务 上表现更好:

[

](https://substackcdn.com/image/fetch/$s_!ccZ4!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45ca8560-c21c-4986-878f-0c6bd90275f6_1200x1078.png)

以及把文字氛围转译为视觉美学

[

](https://substackcdn.com/image/fetch/$s_!LpTw!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fcef6b7d8-c9db-4e5b-80db-4d65f9535c1a_1202x1082.png)

Google 已发布 Gemini 3.1 Pro(总体定位为面向开发者的 Preview),并在 Gemini appNotebookLMGemini API / AI StudioVertex AI 全面铺开。官方将其定义为来自 Gemini 3 Deep Think 的“核心智能”,并针对实际产品场景做了规模化与落地化。

此次公告重点突出推理能力的大幅提升,尤其是 ARC-AGI-2 = 77.1%;同时在代码与 Agent 工具链相关 benchmark 中也表现强势(如 SWE-Bench Verified = 80.6%),并声称 hallucination 行为有所改善。

来自独立榜单与评测者的结果基本印证了其“第一梯队”性能,以及在成本/智能比上的竞争力。与此同时,讨论区的反馈也集中在几件事上: (a) 对实际可用提升感到兴奋(SVG/web/UI/code 质量、Agent 用例); (b) 对“为 benchmark 优化”与“eval tweeting”保持质疑; (c) 尽管多个指标达到 SOTA,但在 GDPval(真实世界 Agent 任务)上并未领跑,引发担忧; (d) 发布节奏带来摩擦:有用户发现部分产品(Gemini CLI / Code Assist / Antigravity)在上线时不可用,或更新状态不一致。

原文链接:https://www.latent.space/p/ainews-gemini-31-pro-2x-30-on-arc

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟