[AINews] Gemini 3.1 Pro：ARC-AGI 2 成绩达 3.0 的两倍

Title: [AINews] Gemini 3.1 Pro：ARC-AGI 2 成绩达 3.0 的两倍

Summary: 轮到 Google 出牌了。

Content:

2026/2/18-2026/2/19 的 AI News。我们为你检查了 12 个 subreddit、544 个 Twitter 账号和 24 个 Discord（262 个频道、14980 条消息）。按 200wpm 估算，帮你节省阅读时间 1467 分钟。AINews 官网可搜索全部往期内容。提醒一下，AINews 现已并入 Latent Space 的一个栏目。你也可以在邮件频率上选择订阅/退订！

在前沿模型几乎每周都进行“轮转式”小版本更新的当下，想写出真正有新意的点评已经越来越难。不过 Gemini 3.1 Pro 看起来确实是一次足够像样的跃进：不仅帮助 Google 追上其他前沿模型，某些场景下甚至有反超意味。（这大概也是 3.1 “必须”尽快发布的原因——毕竟在 5.3 和 4.6 之后，Google 的节奏已经明显落后1。）

[

](https://substackcdn.com/image/fetch/$s_!yx8y!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8564929f-b251-49ac-bc93-3564e36f2cd2_2160x2700.png)

它在一些 svg 设计任务上表现更好：

[

](https://substackcdn.com/image/fetch/$s_!ccZ4!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45ca8560-c21c-4986-878f-0c6bd90275f6_1200x1078.png)

以及把文字氛围转译为视觉美学：

[

](https://substackcdn.com/image/fetch/$s_!LpTw!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fcef6b7d8-c9db-4e5b-80db-4d65f9535c1a_1202x1082.png)

Google 已发布 Gemini 3.1 Pro（总体定位为面向开发者的 Preview），并在 Gemini app、NotebookLM、Gemini API / AI Studio 与 Vertex AI 全面铺开。官方将其定义为来自 Gemini 3 Deep Think 的“核心智能”，并针对实际产品场景做了规模化与落地化。

此次公告重点突出推理能力的大幅提升，尤其是 ARC-AGI-2 = 77.1%；同时在代码与 Agent 工具链相关 benchmark 中也表现强势（如 SWE-Bench Verified = 80.6%），并声称 hallucination 行为有所改善。

来自独立榜单与评测者的结果基本印证了其“第一梯队”性能，以及在成本/智能比上的竞争力。与此同时，讨论区的反馈也集中在几件事上： (a) 对实际可用提升感到兴奋（SVG/web/UI/code 质量、Agent 用例）； (b) 对“为 benchmark 优化”与“eval tweeting”保持质疑； (c) 尽管多个指标达到 SOTA，但在 GDPval（真实世界 Agent 任务）上并未领跑，引发担忧； (d) 发布节奏带来摩擦：有用户发现部分产品（Gemini CLI / Code Assist / Antigravity）在上线时不可用，或更新状态不一致。

[AINews] Gemini 3.1 Pro：ARC-AGI 2 成绩达 3.0 的两倍

相关文章