[AINews] Nano Banana 2(即 Gemini 3.1 Flash Image Preview)发布:新一代 SOTA 图像生成模型
![[AINews] Nano Banana 2(即 Gemini 3.1 Flash Image Preview)发布:新一代 SOTA 图像生成模型](https://substackcdn.com/image/fetch/$s_!qaVO!,w_1200,h_675,c_fill,f_jpg,q_auto:good,fl_progressive:steep,g_auto/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fbe752c54-6f90-4bb6-8620-5c6fe0e707ea_1204x1374.png)
最强图像模型回来了!
AI 新闻速递(2026/2/25-2026/2/26)。我们为你检查了 12 个 subreddit、544 个 Twitter 列表账号 和 24 个 Discord(共 263 个频道、12920 条消息)。按 200wpm 估算,帮你节省阅读时间 1283 分钟。AINews 官网 可检索往期全部内容。提醒一下:AINews 现已成为 Latent Space 的一个栏目。你可以随时订阅/退订不同邮件频率!
先恭喜 Perplexity on Computer,以及它未来将在数亿台三星手机上取代 Bixby 成为默认 AI。不过这些更偏消费端新闻。
对 AI 工程师来说,今天就能直接用上的新闻是 Nano Banana 2,其正式名称是 3.1 Flash Image。最大的看点是价格:根据 Arena 和 ArtificialAnalysis,它被评为全球第一图像模型,但成本却只有一半(生成价格 $67/1k images,相比 Nano Banana Pro 的 $134/1k、GPT Image 1.5 的 $133/1k;编辑方面 FLUX.2 [max] 为 $140/1k images)。
[

它还支持 6 项 角色一致性 与 search grounding,并且文字渲染表现很强。并且每一张生成图都会打上 SynthID 标记。
[

当然,目前没有任何研究细节或论文公开,所以我们的覆盖也先到这里。
Google Nano Banana 2(Gemini 3.1 Flash Image Preview)与新图像评测格局
-
Nano Banana 2 发布与落地范围:Google 与 DeepMind 推出 Nano Banana 2(即 Gemini 3.1 Flash Image Preview)作为“Flash 档”图像生成/编辑模型,正在覆盖 Gemini App、Search(AI Mode/Lens)、Flow、Google Ads,并通过 AI Studio / Gemini API / Vertex AI 提供预览(Google, GoogleDeepMind, GeminiApp, sundarpichai, demishassabis)。产品宣称重点包括:世界知识、更好的 i18n 文本渲染、长宽比控制、最高 4K 放大,以及多主体一致性(例如“最多 5 个角色 + 14 个物体”)(Google, joshwoodward)。
-
Arena/Artificial Analysis 成绩 + 价格信号:多家评测显示,Nano Banana 2 拿下 Text-to-Image 第一,编辑能力也排名靠前,同时价格低于“Pro”档——例如 Artificial Analysis 给出的价格是 $67 / 1k images,而 GPT Image 1.5 与 Nano Banana Pro 约为 $133–134(ArtificialAnlys, arena, kimmonismus)。Arena 还新增了图像子类别,并指出提升最大的是文字渲染和3D 成像/建模(arena)。这也再次说明:排行榜正在变成产品杠杆——“发布当天”就接入(如 fal),并同步推出 prompt 包与模板(GeminiApp templates, GoogleAI prompts)。
-
实时搜索条件生成:Google 多次强调 NB2 依赖的是来自 Web 搜索的实时信息与图像(而不是仅靠静态预训练),并以“从世界任意窗口获取更准确视图”式演示来定位其能力(sundarpichai)。
-
下游可用性:Nano Banana 2 很快出现在第三方产品中,包括 Perplexity Computer(AravSrinivas)。
Agentic coding + 产品化“任务”、记忆与评测(以及对复杂性的反噬)
-
Agents 现在“更常能跑通”,但分布外仍会失败:不少实践者表示,近期前沿模型上的 coding agents(如 GPT-5.2 / GPT-5.3 Codex、Opus 4.6、Gemini 3.1)在可靠性/可用性上出现台阶式提升,正在从“概念验证”走向“可把 CLI 工作委派给初级工程师”的阶段(teortaxesTex, paul_cal)。也有人提醒,复杂 ML/数据工程任务在分布外场景依然脆弱(michalwols, MParakhin)。
-
“Tasks”成为新的产品封装层:微软 Copilot Tasks 主打“少说多做”的委派体验,强调可见计划和用户可控,目前处于“research preview”(mustafasuleyman, yusuf_i_mehdi)。
-
持久记忆正在成为标配——也引入互操作痛点:一条广泛传播的更新称 Claude 上线了 auto-memory(“跨会话记住已学内容”)(trq212),Claude 生态也有呼应(omarsar0)。开发者很快遇到流程摩擦:当记忆/状态存放在工具私有隐藏目录时,会损害“multi-agent、multi-tool”连续性(borisdayma)。
-
工具快速迭代:PR 修 Bug 机器人、代码↔设计闭环、编辑器级改进:
-
Cursor Bugbot Autofix:自动修复 PR 中发现的问题(cursor_ai, aye_aye_kaplan)。
-
OpenAI 的 Codex “code → design → code” 与 Figma 往返流程:目标是降低 UI 迭代损耗(OpenAIDevs, figma)。
-
VS Code 的长距离 Next Edit Suggestions:重点是预测“哪些地方不该改”,帮助维持开发 flow(code, pierceboggan, alexdima123)。
-
-
评测通胀 + 基准“刷分”担忧:有讨论指出,高排行榜分数可能掩盖 token 低效推理 与在“bullshit tests”(如重复 token 的“strawberry”变体)上的失败,提醒不要在不计成本的情况下过度信任 HLE/GPQA 类指标(scaling01)。Arena 的回应是加入更细粒度测试,例如针对代码模型的 Multi-File React(arena)。
-
真正的“税”是复杂性:反复出现的工程担忧是,“10k LOC/day”式炫耀会制造长期复杂性债务——agents 让“交付”更容易,但不让“维护”更容易(Yuchenj_UW)。另一层观点是:如果 agents 把代码库“写糙”,会形成隐性锁定,导致离开这些 agents 后开发体验急剧恶化(typedfemale)。
Perplexity 的分发 + 检索栈:三星整合与新 embedding 模型
-
三星 S26 系统级 Perplexity(“Hey Plex”):Perplexity 称每台 Galaxy S26 都将内置 Perplexity,包含唤醒词和深度 OS 集成;Bixby 会把网页/研究/生成式查询路由给 Perplexity,而本地设备动作由 Bixby 处理(perplexity_ai, perplexity_ai, AravSrinivas)。官方将其定义为更广泛合作的一部分,目标还包括 Samsung Internet 与可选默认搜索入口(perplexity_ai)。
-
pplx-embed / pplx-embed-context 发布(MIT):Perplexity 推出两条 embedding 模型线(0.6B 和 4B),其中 “context” 版本面向 RAG 中的文档 chunk embedding;两者均为 MIT 许可证,可通过 HF + Perplexity API 获取,并附论文(arXiv:2602.11151)(perplexity_ai, perplexity_ai, alvarobartt)。其还披露了内部基准 PPLXQuery2Query / PPLXQuery2Doc:基于 115k 真实查询、30M 文档、覆盖 10 亿+ 页面(perplexity_ai)。Arav 声称这些 embedding 模型“业界领先”(AravSrinivas)。
-
战略解读:这两步(OS 级分发 + 检索基础能力)意味着 Perplexity 正试图同时掌控前门入口(assistant 入口)与搜索核心栈(embeddings + evals),而非依赖第三方平台。
推理、kernel 与基础设施:MoE 支持、异构硬件与 KV 迁移
-
MoE 在 🤗 Transformers 成为“一级公民”:Hugging Face 上线了更完整的 MoE 体系(加载、expert 后端、expert 并行、hub 支持),并强调与社区协作加速 MoE 训练(含 Unsloth)(ariG23498, mervenoyann)。
-
DeepSeek 与多硬件推理的“严肃化”:在这批讨论早期,DeepSeek 被点名“认真支持多样硬件上的推理”(teortaxesTex)。另有 DeepSeek DualPath 细节称:先把 KV cache 暂存到 decode-server DRAM,再通过 GDRDMA 迁移到 prefill GPU,以规避本地 PCIe 瓶颈(JordanNanos)。这反映出更大趋势:推理越来越是系统架构问题,而不只是 kernel 级优化。
-
Kernel 覆盖与 GPU 世代跨度:vikhyatk 提到正在跨 NVIDIA 架构(sm80→sm110)构建推理 kernel,也提到边缘设备 ISA 限制,如 Orin CPU 缺少 SVE(vikhyatk, vikhyatk)。
-
量化并非总是安全:评测显示 MiniMax M2.5 GGUF 量化 的退化显著高于预期(相对 Qwen3.5),说明“直接上 Q4”并不能跨模型家族泛化(bnjmn_marie)。
世界模型、模拟器中的 Agent 与“多人环境”
-
Solaris:多人 Minecraft 世界建模栈:一项重要研究提出,世界建模应聚焦共享全局状态而非像素渲染,并发布了:(1)多人数据采集引擎,(2)基于“memory efficient self forcing design”的 multiplayer DiT(在 12.6M 帧上训练),(3)面向多 Agent 一致性的 VLM-judge 评测套件(sainingxie, georgysavva)。核心观点是:多 Agent 能力需要在个体视角之下有统一共享表征。
-
LLM 作为具身控制器(玩具级但有启发):一个 CARLA→OpenEnv 移植演示显示,小模型 Qwen 0.6B 在 ~50 步内学会刹车/变道以避让行人,使用 TRL + HF Spaces(SergioPaniego)。这体现了“LLM+env”闭环趋势:可逆性有限,错误会持续累积。
治理焦点:Anthropic 与五角大楼在监控和自主武器上的冲突
-
先传出五角大楼施压,随后 Anthropic 公开回应:一条广泛传播的信息称,美国国防部向 Anthropic 发出“最终报价”,包括将其标记为“供应链风险”的威胁,并要求无限制军事用途(KobeissiLetter)。随后 Anthropic 发布 CEO 声明,划出明确红线:不支持大规模国内监控、不支持完全自主武器(基于当前可靠性),并称对方曾以 Defense Production Act 施压(AnthropicAI)。一段被广泛引用的声明节选也被转发并附细节(AndrewCurran_)。
-
行业反应与“声援机制”:这一立场引发多位研究者/工程师公开支持,将其视为高压下的价值选择,而非“政策表演”(fchollet, [TrentonBricken](https://x.com/TrentonBricken/status/2027156295745
[... 内容已截断 ...]
原文链接:https://www.latent.space/p/ainews-nano-banana-2-aka-gemini-31

