Replit Agent 4:知识工作智能体登场

Replit 的估值在过去六个月里翻了三倍,达到 90 亿美元。 你可以质疑 Amjad Masad 的许多做法,但无法否认他和团队对科技界“当前潮流”的精准把握。
如果你不常关注 Replit(比如没看过他们 2015 年的宏伟蓝图或纪录片),可能会觉得那个 8 分钟的视频不过是又一个普通的 AI 平台发布。但今天的 Replit 和两年前那个“附带一点 AI 功能的编码平台”已经判若两人,当时许多现在看来颇为过时的传统观念是:
既然软件工程问题大体解决了,一个编码平台接下来该往哪走?对 Replit 来说,答案是向上层栈发展,成为一个完全集成的生产力套件,包含画布、应用、网站、幻灯片、视频等等。
这是一个聪明的转向,与 2026 年最显著的趋势之一不谋而合——既然编码智能体已经解决了编码问题,那么构建这些智能体的团队自然会将业务范围扩展到越来越多的知识工作任务上。这包括 Pi → OpenClaw、Claude Code → Cowork、各大模型实验室都在做的 Excel 和 PowerPoint 集成,以及 Notion 为全球其他知识工作集成构建的自定义智能体。
我们一直在积累一份“2026 年重要的 AI 趋势”清单,它已通过今年的报道逐渐清晰:
- 2025 年 12 月的编码/推理能力跃迁
- 编码智能体 → 知识工作智能体(本文主题)
- IDE 之死 → “暗黑”软件工厂——无需代码审查
- AI 研究自动化(又称 RSI,有时称“AI 科学家”)
- 世界模型(AMI、对抗性推理)
- 内存短缺与定制 ASIC 栈(包括 Taalas)
- AI 与 SaaS 的再捆绑大战
- “AI 用于科学”终于奏效
- 无损耗的规模化
2026年3月10日至11日的AI新闻。我们检查了12个子版块、544个Twitter账号,未深入Discord。AINews网站可搜索过往所有内容。提醒一下,AINews现已成为Latent Space的一个板块。你可以选择订阅/退订邮件频率!
英伟达 Nemotron 3 Super 发布与开源模型效率竞赛
- Nemotron 3 Super 是当天最清晰的技术发布:一个 1200 亿参数 / 约 120 亿活跃参数 的开源模型,拥有 100 万上下文窗口,采用 混合 Mamba-Transformer / SSM Latent MoE 架构,并明确支持智能体工作负载。英伟达将其定位为异常开放——权重、数据、配方、基础设施细节——并为 Blackwell 时代部署进行了性能优化,声称 在 FP4 精度下推理速度比 GPT-OSS-120B 快 2.2 倍,且比之前的 Nemotron 版本有大幅吞吐量提升(通过 @ctnzr 的公告、@kuchaev 的技术视角、Wired 关于英伟达更广泛开源模型投资的报道)。
- 第三方反应都指向同一个主题:强大的单位活跃参数能力与异常高的服务速度。@ArtificialAnlys 给它打了 36 分的 AA 智能指数,高于 gpt-oss-120b (33) 但低于 Qwen3.5-122B-A10B (42),同时指出其 每 GPU 吞吐量比 GPT-OSS-120B 高出约 10%,发布当天的服务速度达到 最高 484 tok/s。社区和基础设施支持迅速到位,包括 vLLM、llama.cpp、Ollama、Together、Baseten、W&B Inference、LangChain 和 Unsloth GGUFs。
- 最有趣的技术讨论是关于 它为什么这么快。@ctnzr 强调了 原生多令牌预测 作为关键推理优化:临时的多令牌猜测会在后续轮次中验证,利用了小批量情况下原本闲置的 GPU 算力。@bnjmn_marie 还量化了与 Qwen3.5-122B 相比的显著 KV 缓存优势:Nemotron 注意力 KV 项大约为 每令牌 8,192 字节(BF16),而 Qwen3.5-122B 为 每令牌 24,576 字节,这使得长上下文服务的负担明显更轻。
智能体基础设施、编排与“更大的 IDE”论点
- 最突出的产品趋势是从“与模型聊天”转向 持久化智能体运行时和编排层。@karpathy 认为“IDE 时代终结”的说法是错误的;相反,“我们需要一个更大的 IDE”,其中工作单元变成了 一个智能体而非一个文件,后来他将此扩展为 可理解、可复刻的智能体组织的概念,具备实时可观测性和控制(后续推文、组织可理解性讨论串)。
- 多个发布都符合这一框架。Perplexity 宣布了 个人计算机,一个 始终在线的本地/云混合体,运行在 Mac mini 上,可跨本地文件/应用/会话工作,并能远程控制(发布、候补名单)。它还扩展了 企业版计算机,描述了跨 20 个专用模型 和 400 多个应用 的编排(企业发布、API 平台更新)。
- 工程讨论正越来越多地围绕 执行框架(Harness),而不仅仅是模型本身。@Vtrivedy10 描述了一个快速演进的设计空间:改进的模型解锁了以前过于脆弱的产品体验,形成了一个自我改进的循环:评估/指标 → 自主执行框架修改 → 逐步优化。LangChain 为深度智能体增加了 自主上下文压缩,使模型能在任务边界处压缩,而非硬性的令牌阈值(公告),而 @OpenAIDevs 发布了一份关于 智能体计算机访问 的技术文章,涵盖执行循环、文件系统上下文、网络访问和安全护栏(Guardrails)。
Anthropic、Claude 中心化工作流与早期 RSI 焦虑
- 一个重要的元叙事是 Anthropic 对强大 AI 的制度化框架。该公司成立了 Anthropic 研究院,由 Jack Clark 领导,担任新的 公共利益主管 一职,其职责涵盖机器学习工程、经济学和社会科学,旨在塑造公众对先进 AI 的讨论(发布、领导层说明、Jack Clark 谈角色转变)。
- 与此同时,几条推文放大了对 Anthropic 内部可能出现 早期递归自我改进动态 的担忧。最实质性的提及间接来自一篇 TIME 文章的讨论:@kimmonismus 总结了相关说法,即 开发未来模型所用代码的 70–90% 现在由 Claude 编写,模型发布周期已从数月压缩到 数周,一些研究人员认为 完全自动化的 AI 研究可能只需一年就能实现。@Hangsiin 强调了一个特别引人注目的说法:Claude 在某些内部任务上比人类监督员 快 427 倍,嵌套并行使用模式已很常见。
- 这个叙事有一个直接的实际对应点:对 Claude Code 的操作依赖。一次登录/认证故障引发了明显的开发者阵痛,@Yuchenj_UW 开玩笑说硅谷生产力下降了 90%,@dejavucoder 报告无法登录,@HamelHusain 描述了回退到基于令牌的访问。这次故障甚至促使 @karpathy 指出他的 自主研究实验室在 OAuth 故障中被清空,将未来前沿模型服务中断视为潜在的 “智能断电”。
关于智能体评估、检索、后训练与自我改进的研究
(此为文章第一部分,后续内容待续)
智能体系统评估与可靠性
几篇论文聚焦于下一个瓶颈:智能体系统的评估与改进,而不仅仅是基础模型的质量。@karinanguyen_ 发布了 PostTrainBench v1.0,这是一个用于评估前沿智能体能否在简化环境中对语言模型进行后训练(Post-Train) 的基准测试,旨在追踪AI研发自动化/递归自我改进的进展。其中一个值得注意的消融实验发现:对于 GPT-5.1 Codex Max 模型,中等推理强度(Medium Reasoning Effort)的表现优于高强度(High),因为额外的 Token 会导致上下文压缩,反而损害性能(消融实验详情)。
在智能体学习方面,@omarsar0 强调了 EvoSkill 方法。该方法通过执行器/提议者/技能构建者(Executor/Proposer/Skill-Builder)的三元组,从失败中发现并提炼可复用的技能(Skills)。据报道,在 OfficeQA 任务上,该方法将 Claude Code + Opus 4.5 的精确匹配率从 60.6% 提升至 67.9%。@dair_ai 分享了 AgentIR,这是一种推理感知的检索器(Reasoning-Aware Retriever),能将智能体的推理轨迹与其查询联合进行向量嵌入(Embedding)。他们报告在 BrowseComp-Plus 数据集上达到了 68% 的准确率,而更大的传统嵌入模型为 52%,BM25 方法为 37%。
此外,业界再次强调智能体可靠性本身就是一个安全问题,即使没有恶意攻击者。@random_walker 认为,许多 AI 智能体故障源于不可靠性而非明确的攻击,并引用了普林斯顿大学对 NIST 的回应,其中提到需要定义、衡量和缓解这种故障模式。结合业界对评估(Eval)技巧日益增长的重视——例如 @gabriberton 称评估创建是代码智能体时代最有用的技能——整个领域的重心正持续转向评估、执行框架(Harness)以及生产反馈循环。
多模态模型、嵌入与物理/视觉AI
在多模态方面,Google 的 Gemini Embedding 2 发布后,讨论更多集中在实用的定价分析而非基准测试。@osanseviero 总结了这次发布:支持文本、图像、视频、音频、PDF 的向量嵌入(Embedding),以及用于低维存储的套娃嵌入(Matryoshka Embeddings)。@neural_avb 提供了最有用的部署建议:文本嵌入的定价相对于竞争对手显得较高,这表明该模型最好保留用于多模态检索;视频嵌入的成本可能激增,除非客户在上传前积极降低帧率(FPS)。
Qwen3.5 的多模态架构也得到了社区的详细解析。@ZhihuFrontier 的解析显示,它采用了混合注意力架构,混合了门控 DeltaNet 线性注意力和门控全注意力,包含一个 397B A17B 混合专家模型(MoE) 变体和一个 27B 稠密变体,拥有 262k 原生上下文窗口并可扩展至 1M,训练中采用了 MTP 技术。这个帖子主要作为一份关于注意力机制创新方向的简明调查:混合线性/全注意力、分组查询注意力(GQA)、深度缩放注意力(DSA)和混合专家模型路由已成为核心设计维度。
在视觉/物理 AI 领域,Reka Edge 作为一款面向生产的视觉语言模型(VLM)发布,专注于物理 AI 应用。它声称在图像/视频理解、物体检测和工具调用(Tool Use)方面,比领先的 8B 模型输入 Token 减少 3 倍,吞吐量提升 65%(发布链接)。Google 也分享了两项医疗部署:一个 AI 系统识别出了25% 被标准筛查漏诊的间隔期乳腺癌(Google);以及一项关于 AMIE 用于临床对话推理的现实世界研究,发现它安全、可行且受到患者好评(Google Research)。
热门推文(按互动量)
- Perplexity 的“个人电脑”:在 Mac mini 上运行的常驻本地/云端智能体,支持远程控制和本地应用/文件访问(发布链接)。
- Anthropic 研究所 / Jack Clark 的新角色:Anthropic 围绕强大 AI 的公共利益和公共讨论正式成立了一个机构(Anthropic, @jackclarkSF)。
- Replit Agent 4:用于交付应用/网站/幻灯片的协作式多智能体画布(发布链接)。
- NVIDIA Nemotron 3 Super:拥有 1M 上下文窗口和首日生态支持的开放 120B/12B 活跃混合专家模型(@ctnzr)。
- Claude Code 服务中断暴露基础设施风险:前沿模型的身份验证故障明显干扰了真实的工程工作流(@karpathy, @Yuchenj_UW)。
社区热议
-
M5 Max 刚到货 - 跑分马上来 (热度: 2188):帖子讨论了 M5 Max 128GB 14 英寸笔记本的到货和跑分测试,重点是使用
mlx_lm工具测试各种机器学习模型。测试的模型包括 Qwen3.5-122B-A10B-4bit、Qwen3-Coder-Next-8bit、Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit 和 gpt-oss-120b-MXFP4-Q8。跑分结果显示了不同提示长度下的性能指标,如每秒 Token 数和峰值内存使用量。作者最初遇到了 BatchGenerator 的问题,但通过使用全新的 Python 环境和stream_generate解决了。结果显示不同模型的性能差异很大,峰值内存使用量从 25.319 GB 到 92.605 GB 不等,生成速度从每秒 14.225 到 87.873 个 Token。评论者们都急切等待跑分结果,有人对 Qwen 3.5 27b MLX 模型的性能特别感兴趣,另一位评论者则幽默地表示了对跑分的期待。- 使用
mlx_lm.generate对 M5 Max 128GB 14 英寸的跑分显示,不同模型和配置的性能差异显著。例如,Qwen3.5-122B-A10B-4bit 模型在 16K 上下文下实现了1,239.7 t/s的提示吞吐量,峰值内存使用量为73.8 GB。相比之下,Qwen3-Coder-Next-8bit 模型在 32K 上下文下达到了1,887.2 t/s,但内存消耗更高,为89.7 GB。 - Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit 模型的生成吞吐量显著下降,在 32K 上下文下仅为
14.9 t/s,峰值内存使用量为30.0 GB。这表明在模型复杂度和性能之间存在权衡,更精简的模型可能占用更少内存,但吞吐量也更低。 - gpt-oss-120b-MXFP4-Q8 模型表现出色,在 16K 上下文下实现了
2,710.5 t/s的提示吞吐量,且峰值内存使用量相对较低,为64.9 GB。这表明该模型针对高吞吐量进行了优化,同时保持了高效的内存使用,适合需要快速处理速度的应用。
- 使用
-
Qwen3.5-35B-A3B 无审查(激进版) — GGUF 发布 (热度: 1019):Qwen3.5-35B-A3B 激进版在 Hugging Face 发布,其无审查特性引人注目,保持了原模型的能力且无拒绝回答(
0/465 refusals)。该模型拥有35B参数,其中约~3B活跃,采用混合专家模型(MoE)架构,包含256个专家,每个 Token 激活8+1个专家。它支持多模态输入(文本、图像、视频),并采用混合注意力机制(门控 DeltaNet 与 softmax 以3:1比例混合)。模型包含多种量化格式,如BF16、Q8_0和Q6_K,并通过mmproj优化了对视觉的支持。推荐的采样参数包括temp=1.0、top_k=20和presence_penalty=1.5。建议用户在使用llama.cpp时使用--jinja标志以获得最佳性能。社区对此发布表示赞赏,用户感谢开发者的努力,并期待所有组件(如Q4_K_M)都可用后尝试该模型。- Velocita84 提出了一个关键点,认为需要评估 KL 散度(Kullback-Leibler Divergence, KLD)来证实 Qwen3.5-35B-A3B 模型“无能力损失”的说法。这个指标对于量化原始模型和修改后模型概率分布之间的差异至关重要,能确保激进的去审查化不会导致性能下降。
- Iory1998 强调了对其潜在质量下降的担忧,特别是在处理长上下文场景时。这是大语言模型的常见问题,像激进去审查化这样的修改可能会影响模型在长文本输入中保持连贯性和准确性的能力。评论者质疑修改后的模型在这些方面与原模型相比表现如何。
- No-Statistician-374 提到了对模型 Q4_K_M 版本的期待,表明社区对不同量化格式感兴趣。这反映出用户热衷于探索各种配置以优化性能和资源使用,体现了技术社区在平衡模型大小和计算效率方面的关注点。
觉得有用?分享给更多人