AI 基准重置与工具更新
ARC-AGI-3 最高分仅 0.37%
📌 今日头条
ARC-AGI-3 基准重置前沿模型得分
rundown, neuron
ARC-AGI-3 新版本发布,人类首次尝试成功率 100%,但前沿 AI 模型最高分仅 0.37%(Gemini Pro)。该基准测试无指令交互推理,要求智能体从零发现规则并规划策略。
为什么重要: AI 研究者需重新评估模型推理能力,推动更鲁棒的 AGI 测试
📋 值得关注
- Claude 史上最大规模发布 — 收购 Vercept 后整合,热度创历史新高
- Cursor 发布 Composer 2 编码模型 — 基于 Kimi 2.5 调优,但基准测试仅对比 Claude Code
- Reddit 推出 AI 机器人标签计划 — 自动化账户标注 [App],可疑行为需人类验证
- LangSmith Fleet 推出共享 Skills 功能 — 智能体可获取公司专业知识,支持 CLI 下载到本地
- LiteLLM 被黑:4.7 万次恶意包下载 — 46 分钟内下载 4.7 万次,暴露供应链安全风险
📄 论文速递
MinerU-Diffusion:文档 OCR 的并行扩散解码
unknown org · 可以用了 · 代码已开源
做了什么:MinerU-Diffusion 将文档 OCR 重新构想为逆渲染问题,用并行扩散去噪替代自回归解码,提升鲁棒性和解码速度。框架包含块级扩散解码器和不确定性驱动的课程学习,支持长序列的布局、表格和公式恢复。
对你意味着什么 | 可以用了 开发者可集成此框架改进文档处理工具,适用于需要高效 OCR 的视觉语言应用,如自动化数据提取系统。
趋势:扩散模型正替代传统解码方法,提升序列任务的效率和准确性。
SpecEyes:通过推测性感知加速多模态智能体
unknown org · 有代码但离生产远 · 代码已开源
做了什么:SpecEyes 使用轻量级推测规划器,结合认知门控和异构并行处理,加速多模态大语言模型的智能体交互。在 V* Bench 和 HR-Bench 上减少延迟并提升吞吐量,支持无状态并发和有状态串行执行。
对你意味着什么 | 有代码但离生产远 AI 工程师可参考此架构优化智能体系统,适用于需要低延迟视觉工具调用的应用,如自动化客服或机器人控制。
趋势:智能体加速技术正从纯模型优化转向系统级并行设计。
LLM 智能体工作流优化综述
IBM · 思路有启发 · 代码已开源
做了什么:论文综述了 LLM 智能体的工作流优化方法,按结构确定时机(静态 vs 动态)和优化维度(任务指标、验证信号)组织。涵盖可执行工作流、计算图变体和执行成本控制,提供系统化设计指南。
对你意味着什么 | 思路有启发 开发者可借鉴此框架设计更高效的智能体系统,结合 LangChain 等工具实现动态工作流管理。
趋势:智能体开发正从静态模板转向动态运行时图优化。
DA-Flow:基于扩散模型的退化感知光流估计
KAIST AI · 有代码但离生产远 · 代码已开源
做了什么:DA-Flow 针对真实世界退化视频(如模糊、噪声)的光流估计任务,利用图像恢复扩散模型的中间表示,通过全时空注意力提升时间感知。混合架构融合扩散特征和卷积特征,在多个基准上显著优于现有方法。
对你意味着什么 | 有代码但离生产远 计算机视觉开发者可集成此模型处理低质量视频流,适用于监控或移动设备中的鲁棒运动分析。
趋势:扩散模型特征正被用于提升传统视觉任务的零样本能力。
SIMART:通过 MLLM 分解网格为可模拟关节资产
ByteDance Seed · 纯学术
做了什么:SIMART 提出统一的多模态大语言模型框架,用于从单体网格生成关节化 3D 资产。采用稀疏 3D VQ-VAE 减少标记化开销,支持部件级分解和运动学预测,提升物理模拟准备度。
对你意味着什么 | 纯学术 3D 建模和机器人仿真研究者可探索此方向,但当前缺乏成熟工具链,离生产应用较远。
趋势:MLLM 正扩展至 3D 内容生成,推动自动化资产创建。
→ arXiv
📮 SkillNav AI 日报 · 2026 年 3 月 26 日 · skillnav.dev