AI 基准重置与工具更新 — AI 日报

ARC-AGI-3 最高分仅 0.37%

📌 今日头条

rundown, neuron

ARC-AGI-3 新版本发布，人类首次尝试成功率 100%，但前沿 AI 模型最高分仅 0.37%（Gemini Pro）。该基准测试无指令交互推理，要求智能体从零发现规则并规划策略。

为什么重要： AI 研究者需重新评估模型推理能力，推动更鲁棒的 AGI 测试

unknown org · 可以用了 · 代码已开源

做了什么：MinerU-Diffusion 将文档 OCR 重新构想为逆渲染问题，用并行扩散去噪替代自回归解码，提升鲁棒性和解码速度。框架包含块级扩散解码器和不确定性驱动的课程学习，支持长序列的布局、表格和公式恢复。

对你意味着什么 | 可以用了开发者可集成此框架改进文档处理工具，适用于需要高效 OCR 的视觉语言应用，如自动化数据提取系统。

趋势：扩散模型正替代传统解码方法，提升序列任务的效率和准确性。

unknown org · 有代码但离生产远 · 代码已开源

做了什么：SpecEyes 使用轻量级推测规划器，结合认知门控和异构并行处理，加速多模态大语言模型的智能体交互。在 V* Bench 和 HR-Bench 上减少延迟并提升吞吐量，支持无状态并发和有状态串行执行。

对你意味着什么 | 有代码但离生产远 AI 工程师可参考此架构优化智能体系统，适用于需要低延迟视觉工具调用的应用，如自动化客服或机器人控制。

趋势：智能体加速技术正从纯模型优化转向系统级并行设计。

IBM · 思路有启发 · 代码已开源

做了什么：论文综述了 LLM 智能体的工作流优化方法，按结构确定时机（静态 vs 动态）和优化维度（任务指标、验证信号）组织。涵盖可执行工作流、计算图变体和执行成本控制，提供系统化设计指南。

对你意味着什么 | 思路有启发开发者可借鉴此框架设计更高效的智能体系统，结合 LangChain 等工具实现动态工作流管理。

趋势：智能体开发正从静态模板转向动态运行时图优化。

KAIST AI · 有代码但离生产远 · 代码已开源

做了什么：DA-Flow 针对真实世界退化视频（如模糊、噪声）的光流估计任务，利用图像恢复扩散模型的中间表示，通过全时空注意力提升时间感知。混合架构融合扩散特征和卷积特征，在多个基准上显著优于现有方法。

对你意味着什么 | 有代码但离生产远计算机视觉开发者可集成此模型处理低质量视频流，适用于监控或移动设备中的鲁棒运动分析。

趋势：扩散模型特征正被用于提升传统视觉任务的零样本能力。

ByteDance Seed · 纯学术

做了什么：SIMART 提出统一的多模态大语言模型框架，用于从单体网格生成关节化 3D 资产。采用稀疏 3D VQ-VAE 减少标记化开销，支持部件级分解和运动学预测，提升物理模拟准备度。

对你意味着什么 | 纯学术 3D 建模和机器人仿真研究者可探索此方向，但当前缺乏成熟工具链，离生产应用较远。

趋势：MLLM 正扩展至 3D 内容生成，推动自动化资产创建。

📮 SkillNav AI 日报 · 2026 年 3 月 26 日 · skillnav.dev