[AINews] Gemini 3.1 Pro:ARC-AGI 2 成绩达 3.0 的两倍
![[AINews] Gemini 3.1 Pro:ARC-AGI 2 成绩达 3.0 的两倍](https://substackcdn.com/image/fetch/$s_!LpTw!,w_1200,h_675,c_fill,f_jpg,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fcef6b7d8-c9db-4e5b-80db-4d65f9535c1a_1202x1082.png)
Title: [AINews] Gemini 3.1 Pro:ARC-AGI 2 成绩达 3.0 的两倍
Summary: 轮到 Google 出牌了。
Content:
2026/2/18-2026/2/19 的 AI News。我们为你检查了 12 个 subreddit、544 个 Twitter 账号 和 24 个 Discord(262 个频道、14980 条消息)。按 200wpm 估算,帮你节省阅读时间 1467 分钟。AINews 官网 可搜索全部往期内容。提醒一下,AINews 现已并入 Latent Space 的一个栏目。你也可以在邮件频率上选择订阅/退订!
在前沿模型几乎每周都进行“轮转式”小版本更新的当下,想写出真正有新意的点评已经越来越难。不过 Gemini 3.1 Pro 看起来确实是一次足够像样的跃进:不仅帮助 Google 追上其他前沿模型,某些场景下甚至有反超意味。(这大概也是 3.1 “必须”尽快发布的原因——毕竟在 5.3 和 4.6 之后,Google 的节奏已经明显落后1。)
[

它在一些 svg 设计任务 上表现更好:
[

以及把文字氛围转译为视觉美学:
[

Google 已发布 Gemini 3.1 Pro(总体定位为面向开发者的 Preview),并在 Gemini app、NotebookLM、Gemini API / AI Studio 与 Vertex AI 全面铺开。官方将其定义为来自 Gemini 3 Deep Think 的“核心智能”,并针对实际产品场景做了规模化与落地化。
此次公告重点突出推理能力的大幅提升,尤其是 ARC-AGI-2 = 77.1%;同时在代码与 Agent 工具链相关 benchmark 中也表现强势(如 SWE-Bench Verified = 80.6%),并声称 hallucination 行为有所改善。
来自独立榜单与评测者的结果基本印证了其“第一梯队”性能,以及在成本/智能比上的竞争力。与此同时,讨论区的反馈也集中在几件事上: (a) 对实际可用提升感到兴奋(SVG/web/UI/code 质量、Agent 用例); (b) 对“为 benchmark 优化”与“eval tweeting”保持质疑; (c) 尽管多个指标达到 SOTA,但在 GDPval(真实世界 Agent 任务)上并未领跑,引发担忧; (d) 发布节奏带来摩擦:有用户发现部分产品(Gemini CLI / Code Assist / Antigravity)在上线时不可用,或更新状态不一致。
原文链接:https://www.latent.space/p/ainews-gemini-31-pro-2x-30-on-arc

